Aller au contenu principal

Robots humanoïdes· sujet

315 articlesmis à jour le 2026-05-06

L'industrie des robots humanoïdes : Unitree, Fauna Robotics, Tesla Optimus, Chery, Sony, défis techniques et premiers déploiements en entreprise.

Hub d'actualité sur Robots humanoïdes, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Les robots humanoïdes sont passés en 2026 du laboratoire à l'usine. Boston Dynamics Atlas exécute des séquences complexes (« mieux que certains gymnastes » selon le mot d'avril 2026), un robot NVIDIA tient un poste de 8 heures en usine Siemens à 60 bacs par heure, Unitree R1 est commercialisé sur AliExpress à 5 900 dollars. La courbe d'adoption industrielle s'accélère.

Trois fronts émergent. Le front industriel : déploiements ciblés sur des tâches répétitives (logistique, palettisation, inspection) où le ROI est démontrable. Le front grand public : Unitree à 5 900 $ rend l'humanoïde abordable, mais l'usage reste exploratoire. Le front géopolitique : la Chine annonce 8 500 robots IA pour son réseau électrique, démontrant une capacité d'industrialisation hors USA.

Côté écosystème logiciel, la bataille des plateformes humanoïdes se structure rapidement. NVIDIA pousse Isaac + Project GR00T (le « modèle de fondation pour humanoïdes »). Meta annonce vouloir devenir « l'Android des humanoïdes » avec une stack logicielle open. Google travaille avec Boston Dynamics depuis l'acquisition de 2013. Tesla joue le vertical intégré. Apple n'est pas annoncé sur ce segment mais ses brevets en motricité robotique se sont multipliés en 2025-2026. Le résultat : pas de standard unique, fragmentation forte, opportunité importante pour la couche logicielle qui s'imposera.

Pourquoi Robots humanoïdes compte

Les humanoïdes comptent parce qu'ils représentent l'extension physique de l'IA agentique. Le même argumentaire qui structure les agents logiciels (autonomie, capacité, sécurité) s'applique au monde physique avec des enjeux nouveaux : intégrité physique des humains autour, responsabilité juridique en cas d'incident, pression sur l'emploi industriel.

L'angle stratégique : Meta cherche à devenir « l'Android des robots humanoïdes », fournissant la couche logicielle commune que les fabricants matériels (Unitree, Figure, Boston Dynamics) intègrent. Si la stratégie réussit, on assiste à une convergence entre la guerre des plateformes IA et la guerre des plateformes hardware — où Apple (vertical), Google (horizontal), Meta (open + agentique), NVIDIA (compute), Amazon (logistique) jouent chacun leur carte.

L'autre angle souvent sous-estimé : la dimension emploi. La Chine annonce 8 500 robots IA pour son réseau électrique. Si la même cadence se reproduit aux US et en Europe, les premières filières concernées (logistique, palettisation, inspection légère) verront le remplacement humain accélérer dès 2027-2028. La régulation européenne (AI Act, transposition nationale) commence à intégrer cette dimension dans le débat — pas encore avec des règles dures, mais avec des obligations de transparence + impact assessments. Les syndicats français (CGT logistique, CFDT industrie) ont commencé à demander des observatoires sectoriels en avril 2026.

Chronologie

  1. 2013Google rachète Boston Dynamics — premier signal du marché humanoïde grand public
  2. 2024Tesla Optimus, Figure 02, Boston Dynamics Atlas refonte électrique : démarrage de la course commerciale
  3. Janv 2025Tesla démontre Optimus en démo grand public à CES
  4. Mar 2025Unitree H1 démontre une marche grand public
  5. Sept 2025Figure annonce des pilotes BMW + Mercedes en chaîne d'assemblage
  6. Févr 2026NVIDIA présente Project GR00T (modèle de fondation humanoïde) au GTC
  7. Avr 2026Unitree R1 commercialisé sur AliExpress à 5 900 $ (premier humanoïde grand public abordable)
  8. Avr 2026Robot humanoïde NVIDIA tient un poste 8h en usine Siemens à 60 bacs/heure
  9. 29 avr 2026La Chine prévoit 8 500 robots IA pour son réseau électrique (investissement milliardaire)
  10. Avr 2026Premiers observatoires syndicaux français (CGT, CFDT) sur l'impact emploi des humanoïdes industriels
  11. 4 mai 2026Meta veut devenir l'Android des robots humanoïdes (positionnement plateforme logicielle)
  12. 5 mai 2026Top Robots Avril 2026 : usine, sport, salon — l'IA prend le contrôle
  13. 6 mai 2026Vidéo : Atlas (Boston Dynamics) bouge mieux que certains gymnastes

Cinq articles essentiels

Sélection éditoriale. Ces cinq pièces couvrent les angles les plus utiles pour comprendre Robots humanoïdes en 2026.

  1. Atlas (Boston Dynamics) bouge mieux que certains gymnastes : la démonstration que la maturité physique n'est plus le verrou.

  2. Robot humanoïde NVIDIA tient un poste 8h en usine Siemens à 60 bacs/heure : le ROI industriel démontré.

  3. Unitree R1 sur AliExpress à 5 900 $ : le moment où l'humanoïde devient grand public.

  4. Meta veut devenir l'Android des robots humanoïdes : la guerre des plateformes logicielles s'étend au matériel.

  5. La Chine prévoit 8 500 robots IA pour son réseau électrique : la dimension géopolitique de l'industrialisation.

  6. Top Robots Avril 2026 : la photographie complète de la course humanoïde au moment où elle bascule du laboratoire à l'usine.

Questions fréquentes

Quels sont les principaux fabricants de robots humanoïdes en 2026 ?

Tesla (Optimus), Figure, Boston Dynamics (Atlas), Unitree (H1, R1), Apptronik (Apollo), Fauna Robotics, 1X (Eve), Agility Robotics (Digit), Sony (annoncé). La Chine pousse Unitree, UBTech, Fourier Intelligence. Le japonais Sony et le sud-coréen Samsung préparent des entrées en 2026.

Combien coûte un robot humanoïde en 2026 ?

Du grand public au pro : Unitree R1 à 5 900 $ sur AliExpress (entrée de gamme). Tesla Optimus à ~30 000 $ promesse, déploiement progressif. Figure 02 et Boston Dynamics Atlas en B2B (~100-200 000 $). Les usages professionnels (logistique, inspection) sont les premiers à déployer en volume.

Quels sont les déploiements industriels concrets ?

NVIDIA en Siemens (palettisation, 60 bacs/heure, postes 8h). Amazon en logistique (Digit chez Agility). BMW et Mercedes pilote Figure. La Chine annonce 8 500 robots pour son réseau électrique. La courbe est ~10x volumétrique chaque année depuis 2024.

Qui fournit l'IA des humanoïdes ?

Stratégies divergentes : NVIDIA fournit le hardware + une couche logicielle (Isaac, Project GR00T). Meta vise « l'Android humanoïde » (open). Google travaille avec Boston Dynamics. Tesla utilise du propriétaire. Les startups (Figure, Apptronik) bâtissent souvent leur propre stack. La fragmentation est forte.

Quel est l'impact emploi attendu ?

Court terme (2026-2027) : impact marginal — quelques milliers de robots déployés mondialement, dans des contextes industriels où la pénurie de main-d'œuvre est déjà aiguë (logistique, manufacturing). Moyen terme (2028-2030) : pression réelle sur les emplois physiques répétitifs et bas qualifiés. Long terme : dépend de la vitesse de chute des coûts. Les prévisions sérieuses s'accordent sur un déploiement en millions d'unités d'ici 2032-2035 dans les pays riches.

Quels acteurs européens sur les humanoïdes ?

Marginal sur le matériel — pas d'équivalent européen de Tesla Optimus / Figure / Unitree. Plus présent côté composants : capteurs (Sony France, Aebi-Schmidt, ABB), motorisation (Schneider Electric, Bosch), batteries (Verkor, ACC). Côté logiciel : Mistral et Aleph Alpha pourraient fournir la couche IA cognitive, mais ne se positionnent pas frontalement sur l'humanoïde. La voie probable : intégrateurs européens spécialisés (Siemens, Schneider) plutôt que constructeurs end-to-end.

Toute l'actualité Robots humanoïdes

Flux automatique. Articles classés par pertinence, agrégés en continu.

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
1arXiv cs.RO RobotiquePaper

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

1 source
HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme
2arXiv cs.RO 

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

Des chercheurs ont publié HEX (Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation), un cadre de contrôle robotique déposé sur arXiv (arXiv:2604.07993v2) en avril 2026. HEX cible un problème structurel dans le déploiement des humanoïdes bipèdes de grande taille : la majorité des modèles Vision-Language-Action (VLA) existants traitent les membres du robot de façon indépendante, ce qui rend le contrôle à haute dimension (de nombreux degrés de liberté, ou DoF) instable et peu généralisable. Pour y répondre, HEX introduit une représentation d'état universelle alignée sur l'anatomie humanoïde, conçue pour l'apprentissage à grande échelle sur des plateformes hétérogènes. Son prédicteur proprioceptif unifié basé sur un Mixture-of-Experts (MoE) modélise la coordination corps entier et la dynamique temporelle de mouvement à partir de trajectoires issues de multiples morphologies robotiques. Pour l'encodage visuel temporel, HEX utilise des tokens d'historique légers résumant les observations passées sans réencodage redondant des images, puis fusionne indices visuels et langagiers avec la dynamique proprioceptive via un mécanisme de fusion résiduelle à portes et une tête d'action par flow-matching. Ce cadre adresse un goulet d'étranglement réel dans les VLA appliqués aux humanoïdes : le cloisonnement bras/jambes/torse empêche une coordination fluide et pénalise les tâches à réaction rapide ou à horizon long (planification multi-étapes). Les expériences sur tâches de manipulation réelles montrent que HEX atteint des taux de succès et une capacité de généralisation de l'état de l'art, précisément dans ces deux régimes critiques pour un déploiement industriel. La capacité à transférer des politiques entre morphologies hétérogènes (cross-embodiment) réduit également le coût de collecte de données par plateforme, un argument concret pour les intégrateurs. HEX s'inscrit dans une course dense au contrôle humanoïde haute fidélité. Pi0 de Physical Intelligence a popularisé le flow-matching pour la génération d'actions continues ; GR00T N2 de NVIDIA et Helix de Figure AI misent sur l'apprentissage en simulation massive. OpenVLA reste la référence open-source. HEX se distingue par son MoE dédié à la proprioception multi-corps, absent des architectures concurrentes. L'article étant un preprint arXiv révisé (v2), les résultats restent à confirmer par évaluation indépendante ; aucune affiliation institutionnelle ni timeline de déploiement n'est précisée dans le résumé public.

RobotiqueOpinion
1 source
Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme
3arXiv cs.RO 

Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme

Des chercheurs ont publié en mai 2026 sur arXiv (arXiv:2605.19420) un framework de navigation sémantique appelé Dual-Heatmap Grounding, conçu pour convertir des instructions multimodales ouvertes (texte et image) en objectifs locaux physiquement atteignables par un robot. Plutôt que de prédire un waypoint déterministe unique, leur système génère deux cartes de chaleur : une affordance heatmap modélisant les régions continues accessibles dans le champ de vision du robot, et une facing heatmap encodant les contraintes d'orientation. Ces sorties denses forment un champ de potentiel sémantique différentiable, directement intégrable aux planificateurs locaux existants sans modification d'architecture. L'approche a été évaluée sur trois morphologies robotiques distinctes : le Jetbot (plateforme à roues), le H1 d'Unitree (humanoïde bipède) et l'Aliengo d'Unitree (quadrupède), via un benchmark de simulation construit par les auteurs avec un pipeline de données synthétiques assisté par des modèles de fondation. Les résultats atteignent le niveau state-of-the-art parmi les modèles comparables à 8 milliards de paramètres. Le problème adressé est souvent sous-estimé dans les déploiements réels : régresser un point unique vers le centre géométrique d'un objet cible positionne fréquemment le robot sur une zone non traversable (le milieu d'une table, le centre d'un obstacle), provoquant des échecs d'exécution en cascade difficiles à diagnostiquer. En prédisant une distribution spatiale sur les zones libres plutôt qu'un point fixe, le framework améliore significativement l'Affordance Rate (AR), soit la proportion de cibles effectivement exécutables par le planificateur aval. Pour les intégrateurs de robots de service, de logistique ou d'assistance, c'est un gain direct sur la fiabilité des tâches de navigation pilotées par langage naturel, sans toucher au reste de la stack. Ce travail s'inscrit dans la dynamique des modèles VLA (Vision-Language-Action), qui couplent compréhension sémantique et action physique dans un pipeline unifié. La régression de waypoints était jusqu'ici un standard de fait dans la navigation indoor, malgré ses limites documentées en environnements encombrés. Les travaux concurrents incluent LM-Nav, NavGPT et OpenFMNav. Il faut noter que le papier reste un preprint non peer-reviewed, et que l'ensemble des validations se limite à la simulation. La prochaine étape attendue est une évaluation sur robots physiques en conditions réelles, qui permettrait de mesurer le sim-to-real gap sur cette représentation par heatmap.

RobotiqueOpinion
1 source
DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA
4arXiv cs.RO 

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.19294) une méthode baptisée DEFLECT, Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning, pour corriger un défaut structurel des politiques VLA (Vision-Language-Action) déployées en production. Le problème ciblé est l'inférence asynchrone : pendant qu'un modèle VLA calcule le prochain chunk d'actions, le robot exécute déjà le chunk précédent, conditionné sur une observation capturée plusieurs cycles de contrôle plus tôt. Ce décalage entre prédiction et exécution est bénin à faible latence, mais catastrophique dès que l'inférence s'étire : sur le benchmark Kinetix, le taux de succès s'effondre de 89 % à moins de 1 % quand le cycle d'inférence couvre jusqu'à sept pas de contrôle. DEFLECT apporte un gain de +6,4 points de succès dans ce régime haute latence (5 à 7 pas), +4,6 points sur un VLA réel à la latence maximale testée, avec des améliorations cohérentes sur deux tâches physiques : un pick-and-place bimanuel sur convoyeur et un jeu réactif de type whack-a-mole. L'intérêt industriel de DEFLECT tient à sa nature d'affinement post-entraînement entièrement offline, conçu comme une mise à niveau quasi plug-in sur les stacks VLA asynchrones existants. La méthode construit des paires d'actions contrefactuelles (fraîche vs. périmée) à partir d'une politique de référence gelée, puis les note via un estimateur implicite de ratio de vraisemblance par flow-matching, sans étiquettes humaines, sans modèle de récompense, et sans rollouts en ligne. Ce profil d'intégration est stratégique : les équipes qui déploient aujourd'hui des VLA en environnement industriel, où la latence réseau, la charge GPU et la fréquence de contrôle sont rarement synchronisées, peuvent théoriquement appliquer DEFLECT sans refaire de collecte de données ni de fine-tuning supervisé. La robustesse au délai est un frein réel à la commercialisation des politiques généralisées, et c'est la première approche qui quantifie explicitement l'ampleur de l'effondrement avant de le corriger. Les politiques VLA ont émergé comme paradigme dominant depuis RT-2 (Google DeepMind, 2023) et sont au coeur des systèmes de Physical Intelligence (pi0), de Figure AI (Helix), et de Boston Dynamics. Le problème de l'inférence asynchrone est documenté dans plusieurs travaux depuis 2024, mais les solutions proposées jusqu'ici impliquaient généralement un entraînement en ligne coûteux ou des architectures modifiées. DEFLECT se positionne comme une couche de correction légère, applicable à posteriori, ce qui facilite son adoption dans des pipelines déjà stabilisés. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat commercial dans cette version arXiv, il s'agit d'un résultat de recherche, pas d'un produit shipped. Les prochaines étapes probables incluent des évaluations sur des benchmarks standardisés comme LIBERO ou Open-X Embodiment, et potentiellement une intégration dans des frameworks VLA open-source.

RechercheOpinion
1 source
Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse
5Le Big Data 

Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse

Le robot humanoïde G1 du fabricant chinois Unitree Robotics vient de franchir une nouvelle étape lors d'une démonstration publiée le 19 mai 2026 : l'engin réagit désormais à des commandes vocales en temps réel, générant ses mouvements de manière autonome grâce à une intelligence artificielle embarquée directement sur la machine. La vidéo, tournée en une seule prise avec l'audio capté sur place, montre le G1 interpréter des instructions orales et produire les actions correspondantes presque instantanément, sans animations préprogrammées. Une légère latence reste perceptible, mais l'absence de montage agressif ou de coupures suspectes rend la démonstration particulièrement crédible dans un secteur où les mises en scène trompeuses sont monnaie courante. Le G1 est commercialisé à partir de 13 500 dollars, et Unitree prévoit de produire entre 10 000 et 20 000 unités en 2026. Cette capacité à interpréter le langage naturel pour générer des actions physiques en temps réel représente un saut qualitatif majeur pour les robots humanoïdes. Jusqu'ici, la plupart des démonstrations grand public reposaient sur des séquences précodées déclenchées par des mots-clés précis, loin d'une véritable interaction spontanée. Le fait que le G1 adapte ses mouvements selon des instructions variables rapproche l'expérience d'un usage réel dans un environnement domestique ou professionnel. Pour les industries ciblant l'assistance à la personne, la logistique ou les environnements non structurés, ce type de contrôle vocal fluide change concrètement l'équation de déploiement. Quant au prix, 13 500 dollars tranche radicalement avec des concurrents comme Boston Dynamics ou Figure AI, dont les modèles dépassent facilement plusieurs dizaines ou centaines de milliers de dollars. Unitree Robotics s'est imposé ces dernières années comme l'un des acteurs les plus agressifs du marché de la robotique humanoïde, multipliant les démonstrations de capacités physiques remarquables à des prix délibérément bas. La stratégie semble claire : occuper le terrain avant que les géants de la tech, notamment Tesla avec Optimus ou les startups bien financées de la Silicon Valley, ne dominent un marché encore ouvert. L'annonce d'une production de masse entre 10 000 et 20 000 unités cette année signale un passage du stade de prototype à celui de produit industriel. L'intégration de la voix comme interface principale d'interaction, combinée à une IA embarquée capable de générer des mouvements à la volée, ouvre la voie à des robots utilisables sans formation technique. La prochaine bataille se jouera probablement sur la fiabilité en conditions réelles et sur la richesse du vocabulaire d'actions disponibles, deux fronts sur lesquels aucun acteur ne peut encore revendiquer une victoire définitive.

RobotiqueOpinion
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
6arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

RechercheOpinion
1 source
NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel
7arXiv cs.RO 

NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel

NORM-Nav est un framework zero-shot présenté en mai 2026 dans un preprint arXiv (2605.16979) pour la navigation de robots mobiles en environnements humains. Le système associe un grand modèle de langage (LLM) à une perception temps réel par fusion vision-LiDAR: l'opérateur formule des règles comportementales en langage naturel, le LLM les parse en contraintes structurées, et celles-ci sont encodées sous forme de costmaps multi-couches couvrant quatre dimensions (géométrique, sémantique, directionnel, vitesse), directement compatibles avec les planificateurs grid-based standards comme ceux utilisés sous ROS. Des expériences en simulation et en environnement réel indiquent une amélioration des taux de succès de tâche et des trajectoires statistiquement plus proches des références humaines par rapport aux baselines testées, sans réentraînement du planificateur de base. L'enjeu concret est le suivant: les costmaps conventionnels traitent la navigation comme un problème géométrique pur, produisant des trajectoires techniquement valides mais socialement inadaptées, frôlement de passants, ignorance des sens de circulation, vitesse inappropriée en zone dense. Pour un intégrateur déployant des AMR en environnement hospitalier, en entrepôt partagé ou en espace public, cette limite est un frein réel à l'acceptation opérationnelle. NORM-Nav adresse ce verrou en mode zero-shot, sans données de démonstration spécifiques à l'environnement cible, ce qui simplifie le pipeline de déploiement. La compatibilité native avec les planificateurs standard constitue l'argument industriel clé: pas de refonte architecturale, pas de rupture avec la stack ROS existante. La navigation socialement consciente (social navigation) est un chantier actif depuis une décennie, porté par des travaux comme CADRL, SARL ou ORCA, et plus récemment par des approches LLM comme NavGPT ou LM-Nav. NORM-Nav s'inscrit dans cette tendance mais mise sur l'intégration costmap plutôt que sur un planificateur de bout en bout, choix conservateur et pragmatique pour l'industrie. Le preprint ne cite ni partenaires industriels ni timeline de commercialisation, le positionnant clairement comme contribution académique à ce stade. Une soumission en conférence (IROS 2026 ou CoRL 2026) est vraisemblable. Sur le terrain concurrent, Boston Dynamics (Spot en environnements mixtes), les acteurs AMR comme Exotec, et plusieurs projets académiques franco-européens travaillent sur la cohabitation robots-humains, bien qu'aucun n'utilise exactement cette approche de grounding linguistique sur couches costmap.

UELes intégrateurs européens d'AMR en milieu hospitalier ou logistique pourraient tester cette approche zero-shot compatible ROS pour améliorer l'acceptation sociale de leurs flottes sans refonte architecturale.

RobotiquePaper
1 source
L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America
8AI News 

L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America

La conférence TechEx North America a réuni cette année des représentants de l'industrie autour d'une question centrale : que faut-il construire autour de l'IA avant qu'elle puisse réellement s'intégrer dans le monde physique et les environnements d'entreprise ? Organisée en quatre grandes pistes thématiques, Edge Computing, IoT, Data Centre Congress et Cybersécurité, l'événement a mis en avant des intervenants de Schneider Electric, Akamai, Spectro Cloud, Siemens, LG CNS, Boston Dynamics, Rockwell Automation ou encore Ford. Ed Doran, de l'Edge AI Foundation, a présidé la piste edge computing, dont le programme couvrait le déploiement multi-sites, l'inférence distribuée (on-premise, cloud ou hybride), les opérations réseau agentiques et l'application des principes zero-trust aux systèmes de contrôle industriel. La piste IoT industriel a, elle, abordé les usines intelligentes, la gestion d'actifs, l'IA au-delà de l'Industrie 4.0 et les jumeaux numériques. Le constat qui a dominé les échanges tient en deux mots devenus un leitmotiv du salon : "pilot purgatory". Ce phénomène désigne le gouffre entre une démonstration convaincante en salle de conférence et un déploiement réel qui tient la route face aux machines vieillissantes, aux logiciels patrimoniaux et aux organisations peu préparées. La session commune de Rockwell Automation et Ford sur l'IA physique et l'intelligence des actifs connectés a particulièrement insisté sur ce point : comment fait-on entrer l'intelligence dans les opérations quotidiennes sans qu'elle devienne un tableau de bord de plus que personne ne consulte ? Les jumeaux numériques ont subi le même examen critique, plusieurs intervenants ont plaidé pour des modèles opérationnels capables d'améliorer concrètement la maintenance et d'anticiper les décisions, plutôt que de simples répliques visuelles d'installations. Ces débats s'inscrivent dans un moment charnière pour l'industrie : l'IA générative a démontré sa valeur dans les environnements de bureau, mais son transfert vers les environnements industriels se heurte à des contraintes radicalement différentes, latence, fiabilité, sécurité des systèmes de contrôle et consommation énergétique. La piste Data Centre Congress a illustré cette dernière tension avec acuité, en mettant sur la table les crises de construction, les problèmes d'approvisionnement en électricité, le refroidissement et les besoins en réseau des futurs datacenters dédiés à l'IA. Le message transversal de TechEx North America est que les systèmes intelligents, qu'ils soient enfouis dans un site industriel ou déployés dans un back-office, doivent être conçus en cohérence avec les personnes et les machines qu'ils sont censés servir, sous peine de rester des promesses sans lendemain.

UELa présence de Schneider Electric et Siemens parmi les intervenants principaux illustre le rôle des entreprises européennes dans la définition des standards de déploiement de l'IA industrielle à l'échelle mondiale.

InfrastructureActu
1 source
HoloMotion-1 : rapport technique
9arXiv cs.RO 

HoloMotion-1 : rapport technique

Un rapport technique déposé sur arXiv (2605.15336) présente HoloMotion-1, un modèle fondateur de mouvement pour robots humanoïdes conçu pour le suivi de posture corps entier en mode zero-shot, sans adaptation spécifique à la tâche cible. L'originalité du système tient à son corpus hybride : des mouvements reconstruits par vision à partir de vidéos "in-the-wild" constituent la principale source de diversité comportementale, tandis que des données de motion capture (MoCap) soigneusement sélectionnées assurent une supervision haute fidélité. Architecturalement, HoloMotion-1 s'appuie sur un Transformer Mixture-of-Experts (MoE) à activation sparse avec inférence par KV-cache pour le contrôle temps réel, complété par une stratégie d'entraînement sur séquences longues. Testé sur plusieurs benchmarks de mouvement non vus à l'entraînement, le modèle se transfère directement sur un robot humanoïde physique sans fine-tuning additionnel. Le transfert zero-shot vers hardware réel est l'affirmation la plus structurante du rapport : la majorité des approches de contrôle humanoïde exigent jusqu'ici un ajustement pour chaque morphologie ou environnement de déploiement, ce qui freine la généralisation industrielle. L'usage massif de vidéos in-the-wild comme source d'entraînement, plutôt que du MoCap en laboratoire, est une rupture méthodologique potentielle qui élargit le spectre de comportements appris sans nécessiter d'infrastructure de capture coûteuse. L'architecture MoE avec KV-cache emprunte à l'outillage des grands modèles de langage pour répondre aux contraintes de latence du contrôle embarqué temps réel. Le résumé mentionne une amélioration significative de la précision de tracking sur benchmarks, sans préciser les marges numériques. L'affiliation des auteurs n'est pas indiquée dans ce résumé arXiv, ce qui est inhabituel pour un rapport technique de cette envergure. HoloMotion-1 s'inscrit dans un espace concurrentiel actif : NVIDIA a publié GR00T N2 pour le contrôle généraliste d'humanoïdes, Physical Intelligence (pi_0) entraîne des politiques multi-tâche sur données hétérogènes, et plusieurs laboratoires comme CMU, UCB ou ETH Zurich travaillent sur le transfert sim-to-real. La notion de "modèle fondateur de mouvement" réutilisable sur plusieurs plateformes s'inscrit dans la tendance à standardiser les couches de contrôle bas niveau des humanoïdes. La prochaine étape logique serait la validation multi-morphologies sur des plateformes comme Unitree H1/G1, Fourier GR1 ou Agility Digit, et des tests en conditions industrielles réelles.

💬 Le zero-shot sur hardware réel, c'est l'assertion qui fait tout le travail ici. Si ça tient vraiment sans fine-tuning par morphologie, c'est une rupture nette avec ce qu'on voit d'habitude, où chaque robot demande son propre round d'adaptation. Bémol quand même : pas d'affiliation indiquée sur l'arXiv, les marges numériques absentes, ça sent le papier un peu pressé.

RobotiqueOpinion
1 source
San Francisco accueille un club de combat de robots, General Catalyst fait le buzz
10The Information AI 

San Francisco accueille un club de combat de robots, General Catalyst fait le buzz

Jeudi dernier, une boîte de nuit du quartier SoMa à San Francisco accueillait un spectacle pour le moins inhabituel : des combats de robots humanoïdes de la taille d'un enfant dans une cage octogonale, sur fond de musique électronique et d'un animateur en blazer à paillettes. L'événement, baptisé "Robot Fight Night and Dance Off", réunissait quelques centaines de spectateurs venus encourager des machines maladroites à se frapper mutuellement. Derrière ce cirque technologique se cache Nebius, une société de cloud computing cherchant à se faire connaître : les robots, fabriqués par la firme chinoise Unitree, avaient été entraînés et chorégraphiés par Ultimate Fighting Bots, une ligue de sports pour robots humanoïdes, sur la plateforme cloud de Nebius. Dans le même temps, General Catalyst, l'un des fonds de capital-risque les plus influents de la Silicon Valley, publiait une vidéo marketing qui a cumulé 2,5 millions de vues sur Twitter en quelques jours, déclenchant une vive polémique dans le milieu du venture capital. Ces deux événements illustrent, chacun à leur manière, une forme de surchauffe dans l'industrie technologique. La robotique concentre aujourd'hui des sommes colossales : Jensen Huang de Nvidia y voit "la prochaine frontière de l'IA", Elon Musk présente Optimus comme "le plus grand produit de Tesla", et la startup Figure de Brett Adcock atteignait une valorisation de 39 milliards de dollars l'an dernier. Des dizaines de milliards ont été injectés dans des entreprises qui promettent de remplacer des millions de travailleurs dans les usines et les maisons de retraite. Transformer ces machines en attractions de combat revient, selon Shane Wilson, associé chez Citta Capital, à démontrer "le biais testostérone des startups en phase d'amorçage". La vidéo de General Catalyst, elle, a agacé Marc Andreessen et ses équipes : le personnage du capital-risqueur imprudent et peu sérieux qu'elle met en scène ressemble de façon troublante à Andreessen lui-même. Propulsée par ses réactions en ligne, la vidéo est devenue l'un des sujets les plus commentés entre investisseurs cette semaine, certains la qualifiant de "de mauvais goût". La soirée SoMa confirmait pourtant une chose : la révolution robotique annoncée ressemble pour l'instant moins à une armée de Terminators qu'à une procession de machines titubantes peinent à se porter des coups. Un ingénieur d'OpenAI présent dans la salle reconnaissait que les robots n'avaient guère progressé depuis un an. Quant à General Catalyst, habituellement discret dans les joutes verbales entre fonds, cette incursion dans le marketing viral marque un tournant dans la guerre d'image qui oppose les grandes firmes de la Silicon Valley. Le secteur du venture capital, sous pression alors que la bulle IA s'emballe, ne résiste plus à la tentation de la mise en scène, qu'il s'agisse de robots qui se battent maladroitement ou de vidéos qui règlent des comptes à peine voilés.

💬 Des robots humanoïdes qui trébuchent dans une cage octogonale pendant qu'un mec en blazer à paillettes crie dessus, c'est le meilleur résumé de l'état réel de la robotique en 2025. Un ingénieur d'OpenAI sur place qui admet que ça n'a pas bougé depuis un an, ça dit tout. La hype à 39 milliards pour Figure, les discours de Jensen Huang... bon, sur le papier ça claque, mais le produit, lui, peine encore à lever le bras sans tomber.

RobotiqueOpinion
1 source
RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes
11Robotics & Automation News 

RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes

RLWRLD, une startup spécialisée dans les modèles fondation pour la robotique physique, a dévoilé RLDX-1 lors d'un événement privé baptisé "Dexterity Night in SF". Ce modèle fondation est conçu pour permettre aux robots humanoïdes d'exécuter des tâches à contact riche : préhension d'objets, versement de liquides et utilisation d'outils. L'entreprise a publié des résultats sur trois types de benchmarks : manipulation sur table avec des humanoïdes, manipulation en cuisine et versement de café en conditions réelles. Les métriques précises n'ont pas été rendues publiques au moment de l'annonce, ce qui limite toute évaluation indépendante des performances revendiquées. L'approche "dexterity-first" marque un choix de priorité distinct dans la course aux modèles fondation pour robots. La manipulation fine reste le principal goulot d'étranglement de la robotique humanoïde à usage industriel : la locomotion est largement résolue, mais la préhension d'objets variés dans des environnements non structurés demeure difficile à généraliser. L'inclusion d'évaluations en conditions réelles (café, cuisine) plutôt qu'exclusivement en laboratoire suggère une volonté de démontrer une réduction du sim-to-real gap. Pour un intégrateur ou un COO industriel, un modèle capable de gérer des objets divers sans reprogrammation par tâche représente un levier de productivité concret, à condition que les résultats tiennent hors conditions contrôlées. RLWRLD s'inscrit dans un segment en densification rapide : celui des fournisseurs de couche d'intelligence logicielle pour robots tiers, sans fabriquer leur propre hardware. Physical Intelligence (modèle Pi-0), qui adopte une stratégie similaire, est le concurrent le plus direct. En parallèle, Figure AI (Figure 03), Apptronik, 1X et Boston Dynamics développent des modèles intégrés hardware-logiciel. L'annonce de RLWRLD reste au stade du teaser technique : aucune date de disponibilité commerciale, aucun partenaire constructeur ni client pilote n'a été communiqué.

RobotiqueOpinion
1 source
Vous vous souvenez du robot Figure 03 ? Il travaille maintenant 40 heures d’affilée
12Le Big Data 

Vous vous souvenez du robot Figure 03 ? Il travaille maintenant 40 heures d’affilée

Le robot humanoïde Figure 03, développé par la startup américaine Figure AI, vient de réaliser une démonstration marquante dans le secteur de la logistique : plus de 40 heures de tri de colis en continu, sans interruption ni assistance humaine. Cette performance a été rendue possible grâce à Helix-02, le nouveau réseau neuronal maison qui pilote les capacités du robot durant ces longues sessions de travail. Figure AI précise que le système est capable de détecter ses propres erreurs et de reprendre automatiquement une tâche interrompue. La gestion des batteries est également automatisée, plusieurs unités fonctionnant en relais pour garantir une continuité opérationnelle. Parallèlement, l'entreprise annonce avoir expédié 350 robots depuis son usine BotQ de Sunnyvale, en Californie, à un rythme de production d'environ un robot par heure. Ce qui change avec cette démonstration, c'est le déplacement du curseur dans la robotique industrielle : il ne s'agit plus de prouver qu'un humanoïde peut saisir un objet sans le faire tomber, mais qu'il peut tenir un poste de travail pendant des dizaines d'heures dans un environnement réel. Pour les entrepôts logistiques, la chaîne d'approvisionnement et les usines qui tournent en 3x8, cette endurance autonome représente le véritable verrou technologique à franchir. Un robot capable de travailler 40 heures sans supervision humaine n'est plus un prototype de laboratoire : c'est un candidat sérieux au remplacement de postes pénibles, répétitifs et difficiles à pourvoir. La question économique devient alors très concrète pour les opérateurs logistiques. Figure AI a été fondée en 2022 seulement, par Brett Adcock, et s'est imposée à une vitesse surprenante dans une course dominée par des acteurs établis comme Boston Dynamics ou Tesla, dont le robot Optimus reste une référence dans le secteur. La société a multiplié les démonstrations ces derniers mois, dont une vidéo montrant le Figure 03 ranger une chambre avec des gestes fluides et adaptés à l'environnement, cherchant à distinguer ses robots des démos très contrôlées qui ont souvent entaché la crédibilité du secteur. La prochaine étape sera d'ordre commercial et opérationnel : transformer ces démonstrations en déploiements industriels durables, avec des contrats clients, une maintenance à l'échelle, et des garanties de fiabilité sur le long terme. C'est là que se jouera la vraie bataille entre les prétendants à la robotique humanoïde de masse.

UELes opérateurs logistiques et industriels européens (entrepôts, chaînes d'approvisionnement, usines 3x8) devront intégrer l'émergence de robots humanoïdes autonomes dans leur planification stratégique à moyen terme.

💬 40 heures en continu sans personne dans la boucle, c'est le truc qui change vraiment l'équation. Jusqu'ici les demos robotique c'était "regarde il attrape une balle", là on parle d'endurance en condition réelle, avec gestion autonome des batteries et reprise d'erreur, dans un entrepôt qui tourne. Reste à voir ce que ça donne avec la maintenance à l'échelle, parce qu'un robot par heure sorti d'usine c'est ambitieux, et les promesses de Figure AI méritent encore qu'on les regarde tourner 6 mois avant de signer des contrats.

RobotiqueOpinion
1 source
L'IA physique s'approche des usines à mesure que les entreprises testent des robots humanoïdes
13AI News 

L'IA physique s'approche des usines à mesure que les entreprises testent des robots humanoïdes

La société britannique Humanoid s'apprête à déployer ses robots humanoïdes dans les usines de l'équipementier industriel allemand Schaeffler, avec un objectif de 1 000 à 2 000 machines installées sur les sites de production mondiaux du groupe d'ici 2032. Les premières livraisons sont prévues entre décembre 2026 et juin 2027 sur deux sites allemands : Herzogenaurach, où les robots s'occuperont de la manutention de cartons, et Schweinfurt, qui servira de terrain de test à plus grande échelle. En parallèle, Schaeffler deviendra fournisseur privilégié d'Humanoid pour ses actionneurs articulaires jusqu'en 2031, un contrat portant sur plus d'un million de pièces et couvrant plus de la moitié des besoins d'Humanoid pour ses plateformes humanoïdes à roues. Le montant total de l'accord n'a pas été divulgué. De son côté, la startup sud-coréenne RLWRLD collecte activement des données de mouvement auprès de travailleurs dans des hôtels, des entrepôts logistiques et des commerces de détail, notamment au Lotte Hotel Seoul, chez le groupe logistique CJ et dans des magasins de la chaîne japonaise Lawson, afin d'entraîner ses systèmes robotiques sur des gestes réels. Ces déploiements marquent une accélération concrète de l'IA physique dans les environnements industriels et de service, après des années de promesses restées au stade expérimental. La dextérité manuelle, identifiée comme priorité par les ingénieurs de RLWRLD, est au cœur des enjeux : les robots doivent reproduire des gestes précis comme plier des serviettes ou insérer un objet dans une boîte avant de la poser sur un tapis roulant. Pour Schaeffler, l'automatisation de tâches répétitives dans ses lignes de production représente un levier de compétitivité dans un contexte de pression sur les coûts industriels. Pour les startups comme Humanoid et RLWRLD, ces contrats valident leur modèle et leur permettent de financer le développement technologique à travers des déploiements réels. Le secteur se structure rapidement autour d'une échéance commune : 2028, année à laquelle plusieurs acteurs, dont RLWRLD, anticipent un déploiement à grande échelle des robots industriels. Hyundai Motor prévoit d'introduire des humanoïdes Boston Dynamics dans ses usines mondiales dès cette date, en commençant par son site de Géorgie. Samsung Electronics ambitionne quant à lui de transformer l'ensemble de ses sites de fabrication en "usines pilotées par l'IA" d'ici 2030, avec humanoïdes et robots spécialisés en production. Ces annonces suscitent l'inquiétude des syndicats sud-coréens, qui alertent sur les risques pour l'emploi et sur l'érosion des compétences techniques qualifiées. La Confédération coréenne des syndicats appelle gouvernement et employeurs à associer les travailleurs aux décisions, avant que le mouvement ne devienne irréversible.

UELes premiers déploiements de robots humanoïdes sont prévus dès fin 2026 sur des sites allemands de Schaeffler (Herzogenaurach et Schweinfurt), soulevant des questions directes sur l'emploi industriel et la transformation des métiers qualifiés en Europe.

💬 Après des années de prototypes qui trébuchent, on passe enfin à des bons de commande et des dates de livraison. Le détail qui compte chez Schaeffler, c'est qu'ils sont simultanément client d'Humanoid et fournisseur de leurs actionneurs, un deal croisé qui ancre vraiment la relation dans le long terme. 2028 comme horizon commun pour tout le secteur, on verra si les chaînes d'approvisionnement suivent le rythme.

RobotiqueOpinion
1 source
Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes
14Le Big Data 

Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes

Fondée en 2016 à Hangzhou par Wang Xingxing, Unitree Robotics s'est imposée comme l'un des acteurs les plus actifs de la robotique mobile en Chine. Partie de travaux sur la locomotion quadrupède, l'entreprise a rapidement commercialisé une gamme de robots destinés à la recherche et à l'ingénierie, dont les modèles Laikago et AlienGo, conçus pour valider le contrôle moteur et la stabilité dynamique. Elle a ensuite lancé la gamme Go, avec le Go1 puis le Go2, des robots quadrupèdes intégrant navigation autonome, perception multi-capteurs et traitement embarqué en temps réel. Ces machines sont capables d'évoluer sur des surfaces variées, en intérieur comme en extérieur, et d'adapter leur déplacement à des environnements non structurés. Unitree développe également des robots humanoïdes centrés sur la locomotion bipède, élargissant ainsi son périmètre au-delà des quatre pattes. L'impact de ces développements est double. D'un côté, Unitree a contribué à démocratiser l'accès aux robots quadrupèdes en abaissant significativement les coûts par rapport aux solutions concurrentes, ce qui a permis à des laboratoires universitaires, des équipes de recherche et des développeurs indépendants d'expérimenter à moindre coût sur des plateformes matérielles réelles. De l'autre, la qualité des modèles Go en termes de stabilité et de perception a accéléré les travaux sur la locomotion autonome et la navigation en environnement réel, deux briques fondamentales pour les futures applications industrielles et urbaines de la robotique mobile. Le contexte dans lequel Unitree s'est développée est celui d'une compétition mondiale intense autour de la robotique incarnée, avec Boston Dynamics comme référence technique historique côté américain et un écosystème chinois en pleine montée en puissance soutenu par des financements publics et privés massifs. Wang Xingxing a choisi une approche pragmatique, privilégiant l'intégration matérielle maîtrisée et l'accessibilité commerciale plutôt que la démonstration spectaculaire. Cette stratégie a permis à Unitree de construire une base d'utilisateurs réelle dans la recherche et l'éducation, tout en préparant le terrain vers des marchés plus larges comme la surveillance, l'inspection industrielle ou l'assistance en environnement urbain. Le virage vers les humanoïdes, visible dans les démonstrations récentes, s'inscrit dans la même logique : capitaliser sur l'expertise en locomotion pour adresser les usages où la forme bipède devient un avantage opérationnel.

RobotiqueOpinion
1 source
SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données
15arXiv cs.RO 

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Des chercheurs publient sur arXiv (arXiv:2605.11114, mai 2025) une méthode baptisée SEVO (Semantic-Enhanced Virtual Observation) visant à résoudre l'un des problèmes les plus documentés des politiques VLA (Vision-Language-Action) et d'apprentissage par imitation : leur effondrement dès qu'elles quittent l'environnement d'entraînement. Sans modification de l'architecture du modèle, SEVO agit sur le flux caméra RGB brut via trois mécanismes combinés : des caméras fixes sur le corps du robot dont les champs de vision couvrent l'intégralité de l'espace de manipulation, un éclairage actif en spectre rouge qui normalise physiquement l'apparence des objets, et une segmentation YOLO en temps réel qui produit une représentation sémantique invariante au fond. Les tests portent sur des bouteilles d'eau transparentes -- objets délibérément difficiles car ils se confondent visuellement avec leur environnement -- dans une tâche de pick-and-place répétée sur deux plateformes mobiles. Avec SEVO, la politique ACT atteint 95 % de succès en environnement d'entraînement et 85 % en environnement inédit ; SmolVLA atteint 83 % et 75 % respectivement. Sans SEVO, ces mêmes politiques plafonnent à 75 %/70 % en entraînement et s'effondrent à 30-35 % hors contexte. Ces résultats remettent directement en cause le paradigme dominant qui consiste à compenser le manque de robustesse par une mise à l'échelle des modèles. Les praticiens de la communauté open source rapportaient déjà des taux de transfert quasi nuls avec les benchmarks ACT et SmolVLA standards, pourtant affichant des scores élevés en laboratoire. SEVO démontre que la conception de l'observation -- ce que le robot "voit" et comment -- combinée à une diversification systématique des données de téléopération (variations d'éclairage, de fond, d'objets distracteurs) constitue le levier de généralisation le plus efficace, bien devant le choix du modèle. Pour un intégrateur ou un COO industriel, l'implication est directe : un robot à bas coût bien "observé" et entraîné sur des données variées surpasse un modèle plus sophistiqué entraîné dans des conditions homogènes. Le contexte est celui de l'essor des toolchains communautaires autour des VLA, notamment les frameworks lekiwi et SO-101 sur lesquels ACT et SmolVLA sont régulièrement évalués. La "sim-to-real gap" et le "domain shift" sont des problèmes ouverts depuis des années dans la manipulation robotique ; des approches comme domain randomization ou data augmentation tentaient déjà d'y répondre par le calcul. SEVO prend le parti inverse : agir sur le hardware d'observation et le protocole de collecte plutôt que sur l'architecture ou la puissance de calcul. Les suites logiques de ces travaux incluent l'extension à des tâches multi-étapes, à des objets plus variés, et potentiellement à des bases mobiles commerciales -- un terrain sur lequel des acteurs comme Boston Dynamics (Spot), AgileX ou les startups européennes de manipulation à coût réduit sont directement concernés.

UESmolVLA, développé par HuggingFace (entreprise franco-américaine), est directement évalué dans cette étude, les équipes européennes travaillant sur la manipulation VLA disposent d'un levier hardware-protocole immédiatement applicable pour multiplier leurs taux de succès hors environnement d'entraînement, sans changer d'architecture ni investir dans des modèles plus lourds.

💬 J'attendais quelqu'un pour le montrer proprement : le domain shift, c'est pas un problème de modèle, c'est un problème d'observation. SEVO passe de 30 à 85 % de succès hors environnement d'entraînement en contrôlant l'éclairage, les angles de caméra et la segmentation temps réel, sans changer une ligne d'architecture. Un robot bas coût bien observé bat un modèle sophistiqué entraîné dans une bulle.

RobotiqueOpinion
1 source
Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA
16arXiv cs.RO 

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Des chercheurs ont publié mi-mai 2026 sur arXiv (référence 2605.11459) une méthode baptisée "Pace-and-Path Correction" pour corriger un angle mort structurel des modèles VLA (Vision-Language-Action). Ces modèles, socle technique des bras manipulateurs de nouvelle génération, sont entraînés sur des observations à image unique (single-frame), ce qui les rend incapables de percevoir les dynamiques temporelles lors de l'exécution d'une séquence planifiée. En pratique, dès qu'un objet bouge pendant que le robot exécute un "action chunk", les performances chutent sévèrement, même après fine-tuning sur des datasets dynamiques. L'opérateur proposé s'applique à l'inférence sans ré-entraînement, comme une couche wrapper autour de tout VLA à action chunking, et se décompose en deux canaux orthogonaux issus d'une minimisation de coût quadratique unique : un canal "pace" compressant l'exécution le long de la trajectoire prévue, et un canal "path" appliquant un décalage spatial orthogonal pour absorber les perturbations dynamiques dans la fenêtre temporelle du chunk. Évalué sur MoveBench, un benchmark conçu pour isoler le mouvement comme seule variable contrôlée, la méthode améliore le taux de succès de 28,8 points de pourcentage en environnement purement dynamique et de 25,9 points en contexte mixte statique-dynamique, surpassant les VLAs de base ainsi que les approches dynamiques-adaptatives existantes. L'enjeu est directement opérationnel : les VLAs actuels comme pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de Nvidia peinent dès qu'un convoyeur avance ou qu'un opérateur interfère avec la scène, soit le cas standard en environnement industriel réel. Corriger ce "dynamics gap" exigeait jusqu'ici un ré-entraînement coûteux, souvent rédhibitoire pour un intégrateur sans infrastructure ML dédiée. Le caractère training-free de Pace-and-Path Correction signifie qu'elle peut s'intégrer sur un modèle déjà déployé sans modifier les poids ni la pipeline d'apprentissage, abaissant drastiquement la barrière d'adoption pour des déploiements en conditions réelles. La "dynamics-blindness" des VLAs est une critique récurrente depuis l'émergence de pi-0 et OpenVLA en 2024-2025, la majorité des démonstrations publiques ayant lieu sur scènes statiques et laissant ouvert le demo-to-reality gap dès que les conditions industrielles se compliquent. Ce travail s'inscrit dans la course à la manipulation robuste que se livrent Nvidia, Figure (Figure 03), Boston Dynamics et 1X Technologies. Aucun acteur français n'est directement cité, mais les conclusions intéressent des intégrateurs comme Exotec et des équipes de recherche comme le LAAS-CNRS travaillant sur la manipulation en environnement non-structuré. La prochaine étape logique est une validation sur hardware réel - le papier reste à ce stade un benchmark simulé - et une intégration dans des stacks open-source comme LeRobot de Hugging Face.

UELes équipes LAAS-CNRS travaillant sur la manipulation non-structurée et des intégrateurs comme Exotec pourraient adopter cette correction sans ré-entraînement pour améliorer la robustesse de déploiements VLA en environnement industriel dynamique, sans infrastructure ML dédiée.

💬 Le dynamics gap des VLAs, on le connaissait depuis l'émergence de pi-0 : dès qu'un objet bouge pendant l'exécution d'un chunk, c'est la déroute. Ce qui change ici, c'est que la correction s'applique à l'inférence sans toucher aux poids, comme une couche qu'on pose par-dessus n'importe quel modèle déjà déployé. +28 points sur MoveBench, training-free : si ça tient sur hardware réel, les intégrateurs n'ont plus d'excuse pour rester sur des scènes statiques.

RechercheOpinion
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
17arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

RobotiqueOpinion
1 source
Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs
18Robotics Business Review 

Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs

Hello Robot a annoncé le 12 mai 2026 la disponibilité immédiate de Stretch 4, la quatrième génération de sa plateforme de manipulation mobile à usage général, au prix de 29 950 dollars. Le robot conserve l'architecture distinctive de la gamme, bras télescopique, base omnidirectionnelle, mais intègre une refonte complète selon les termes de Charlie Kemp, co-fondateur et CTO. L'enveloppe sensorielle est significativement enrichie : deux lidars 3D hémisphériques, trois caméras haute résolution, six capteurs laser linéaires et des caméras fisheye RGB à obturateur global couvrent l'environnement à 360 degrés, réduisant drastiquement les angles morts même lorsque le bras est en extension. Une caméra centrale haute résolution surveille spécifiquement l'espace de travail du préhenseur pour les tâches de manipulation fine. La vitesse du bras, du lift et de la base a été doublée par rapport à Stretch 3, et la portée totale étendue de 10 %. Un nouveau système d'alimentation permet jusqu'à huit heures d'autonomie, avec station de recharge autonome intégrée. Ce qui distingue Stretch 4 dans le segment des robots de service tient moins aux gains de vitesse qu'à sa philosophie sensorielle, explicitement calquée sur l'approche "sensor-rich" de Waymo pour le véhicule autonome. Aaron Edsinger, CEO, l'exprime sans détour : les robots mobiles actuels sont "relativement aveugles" aux personnes et aux obstacles dynamiques, ce qui représente un frein réel au déploiement en environnements non structurés, domiciles, établissements de santé. Pour les intégrateurs et les équipes de recherche qui ciblent ces contextes, Stretch 4 offre une base perceptuelle nettement plus robuste que la génération précédente. La hausse de taille répond à un besoin fonctionnel concret : accompagner des utilisateurs en fauteuil roulant motorisé, dont la tête se situe plus haut. La conception reste délibérément orientée sécurité intrinsèque, masse basse, absence d'actionneurs luttant contre la gravité, sans prétendre à une certification formelle, ce qu'Edsinger reconnaît explicitement. Hello Robot a été fondée en 2017 et a commercialisé Stretch à partir de 2020. La plateforme compte aujourd'hui plus de mille utilisateurs dans vingt-trois pays, principalement des laboratoires académiques et des équipes de R&D industrielle. Stretch 3 avait remporté le RBR50 Robotics Innovation Award 2025 dans la catégorie "Robots for Good". La stratégie open-source de Hello Robot la positionne différemment des acteurs humanoïdes (Figure, Agility, Apptronik) ou des robots de service propriétaires (Boston Dynamics Spot). Dans le segment des manipulateurs mobiles à bras unique destinés à la recherche, la concurrence directe inclut Fetch Robotics (racheté par Zebra), le PR2 en voie d'extinction, et les nouvelles plateformes de Robotics+AI startups comme Kepler. Stretch 4 cible une niche précise, recherche en IA physique, assistance aux personnes à mobilité réduite, où le rapport prix/polyvalence sensorielle constitue l'argument principal. Aucune timeline de certification sécurité n'a été communiquée.

RobotiqueActu
1 source
Locomotion humanoïde de bout en bout apprise à partir de pixels bruts
19arXiv cs.RO 

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

Une équipe de recherche a publié sur arXiv (réf. 2602.06382v2) un framework end-to-end permettant à un robot humanoïde de naviguer sur terrain varié en s'appuyant uniquement sur des images brutes de caméras stéréo de profondeur, sans carte de terrain préchargée à l'inférence. Le système s'articule autour de deux contributions distinctes. La première est une simulation haute-fidélité du capteur stéréo qui reproduit les artefacts de matching et les incertitudes de calibration réels, comblant le fossé entre l'entraînement simulé et le déploiement physique. La seconde est une approche de distillation comportementale tenant compte de la vision : une politique enseignante, entraînée sur des cartes de hauteur parfaites ("privileged height maps"), transfère ses connaissances à une politique étudiante ne recevant que des observations de profondeur bruitées, via un alignement dans l'espace latent et des tâches auxiliaires invariantes au bruit. Pour la gestion multi-terrain, une architecture multi-critic et multi-discriminator attribue des réseaux dédiés à chaque type de surface. La méthode a été validée sur deux plateformes humanoïdes équipées de caméras stéréo différentes, couvrant des défis tels que plateformes surélevées, larges brèches et traversée bidirectionnelle de longs escaliers. Ce travail s'attaque à un verrou majeur : la quasi-totalité des politiques de locomotion par reinforcement learning contournait jusqu'ici la perception visuelle en utilisant des cartes de terrain parfaites en simulation, inexistantes sur robot réel. En intégrant explicitement les imperfections du capteur dans la boucle d'entraînement, les auteurs montrent qu'un humanoïde peut naviguer en milieu non structuré avec seulement des caméras RGB-D grand public. Pour un intégrateur ou un décideur industriel, cela réduit potentiellement la suite sensorielle nécessaire et évite le recours au LiDAR ou à la cartographie préalable. L'architecture multi-discriminator règle également la friction habituellement observée entre les objectifs conflictuels d'apprentissage sur terrains homogènes et hétérogènes, une limite connue des politiques locomotion généralistes. La locomotion humanoïde basée vision est un champ de bataille actif : Unitree (H1, G1) et Agility Robotics (Digit) privilégient encore largement la proprioception, tandis que Boston Dynamics (Atlas), Figure (Figure 03) et Physical Intelligence (Pi-0) y intègrent progressivement la vision dans leurs pipelines de contrôle. NVIDIA pousse GR00T N2 comme couche commune de synthèse de mouvement simulé. Ce papier de février 2026 s'inscrit dans une vague cherchant à rendre la locomotion bas niveau aussi robuste que les policies VLA (Vision-Language-Action) le sont pour la manipulation. La validation sur deux plateformes différentes constitue un signal positif de généralisation, mais les métriques quantitatives détaillées (taux de succès, vitesse de marche, distance franchissable) ne figurent pas dans le résumé et méritent vérification avant toute décision d'intégration opérationnelle.

RobotiquePaper
1 source
NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA
20arXiv cs.RO 

NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA

Des chercheurs ont publié sur arXiv (référence 2510.03895v2) NoTVLA, un framework pour modèles robotiques de type Vision-Language-Action (VLA) qui s'attaque au problème du catastrophic forgetting, soit la tendance d'un modèle à oublier les tâches apprises lors du fine-tuning sur de nouvelles. L'approche, baptisée Narrowing of Trajectory VLA, abandonne les séquences d'action denses (action chunks) au profit de trajectoires creuses (sparse trajectories), en concentrant l'apprentissage sur la trajectoire de l'effecteur terminal plutôt que sur celle de l'objet cible. Le système applique une compression temporelle et un élagage du raisonnement spatial pour réduire le volume d'information d'entraînement. Dans des scénarios multi-tâches, NoTVLA surpasse pi0, le modèle de foundation robotique de Physical Intelligence, en zero-shot, tout en utilisant plus d'un ordre de grandeur moins de puissance de calcul, et sans nécessiter de caméra montée sur le poignet. Ce gain opérationnel est concret : le catastrophic forgetting constitue l'un des obstacles majeurs au déploiement industriel des VLA généralistes. Chaque fine-tuning sur un nouvel environnement tend à effacer les capacités précédemment acquises, forçant les intégrateurs à maintenir des modèles séparés par application, une contrainte coûteuse en infrastructure et en données étiquetées. NoTVLA contourne ce problème en évitant l'entraînement sur des trajectoires denses, lesquelles créent des silos de données isolés qui perturbent la rétention de connaissance entre tâches. L'absence de caméra poignet simplifie également l'intégration matérielle sur des bras industriels standard. Fait notable : le framework préserve les capacités linguistiques du modèle de base, ce qui permet une généralisation zero-shot depuis des perspectives de caméra inédites et un déploiement unifié sur plusieurs plateformes robotiques, avec des performances proches de modèles experts mono-tâche. NoTVLA s'inscrit dans la compétition intense autour des VLA, apparus comme paradigme dominant depuis fin 2023. Physical Intelligence (pi0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et des acteurs académiques comme le Berkeley RAIL Lab (OpenVLA) se disputent la définition du standard de foundation robotique. Ce papier reste une publication académique arXiv, pas encore un produit commercialisé ni un déploiement terrain annoncé : aucun code public ni dataset n'est mentionné dans l'abstract, et les résultats reposent sur des évaluations en simulation ou banc de test contrôlé. La prochaine étape logique sera la validation sur robots physiques en conditions réelles, avec des benchmarks sur plateformes comme Franka ou UR5. La promesse d'efficacité, dix fois moins de puissance de calcul que pi0, pourrait intéresser des intégrateurs européens cherchant à s'affranchir des infrastructures GPU massives des grands clouds américains.

UELa réduction de 10x des besoins de calcul par rapport à pi0 pourrait permettre à des intégrateurs européens de déployer des VLA généralistes sans dépendre des infrastructures GPU massives des grands clouds américains.

RobotiqueOpinion
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
21arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

RobotiqueOpinion
1 source
MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale
22arXiv cs.RO 

MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale

Une équipe de chercheurs a publié sur arXiv (référence 2505.09672) MVB-Grasp, un système de saisie robotique conçu pour le bras Unitree Z1, un manipulateur à 6 degrés de liberté (DOF) positionné en configuration frontale, c'est-à-dire face à l'objet plutôt qu'en vue surplombante. Le dispositif expérimental associe une caméra Intel RealSense D405, un détecteur d'objets YOLOv8 et le générateur de prises GraspGen basé sur la diffusion. L'innovation centrale est un filtre géométrique fondé sur la boîte englobante de volume minimal orientée (MVBB) : en analysant les normales des faces de cette boîte en temps O(N), le système élimine les candidats de saisie qui traverseraient la table ou s'aligneraient mal avec les faces accessibles de l'objet. Une fonction de re-scoring combine le score du discriminateur appris et l'alignement géométrique avec un coefficient alpha fixé à 0,85. Sur 81 épisodes de simulation MuJoCo (cylindre, boîte asymétrique, bouteille d'eau), MVB-Grasp atteint 59,3 % de succès contre 24,7 % pour GraspGen seul, soit un gain de 2,4x, confirmé ensuite en conditions réelles sans nécessiter de ré-entraînement du modèle. Ce résultat est notable parce qu'il pointe un angle mort structurel de la recherche en manipulation : les benchmarks standards comme GraspNet-1Billion ou YCB-Video sont quasi-exclusivement conçus pour des caméras en vue de dessus sur des manipulateurs haut de gamme à large espace de travail. Or une part croissante des déploiements industriels et de service implique des bras montés sur des piédestaux fixes ou des AMR, en saisie frontale, avec des contraintes cinématiques sévères. Le fait que le gain soit obtenu sans ré-entraînement, uniquement par un filtre géométrique injecté en post-traitement, démontre que le "sim-to-real gap" dans ces configurations n'est pas seulement un problème de données mais aussi de biais dans la sélection des poses candidates. C'est une piste directement exploitable pour les intégrateurs qui déploient des manipulateurs à bas coût dans des cellules contraintes. Le Unitree Z1 est un bras compact vendu autour de 4 000 à 6 000 dollars, souvent utilisé en recherche académique comme alternative économique aux UR5 ou Franka Panda. La diffusion appliquée à la génération de prises est un axe actif depuis 2022-2023 (GraspGen, SE(3)-DiffusionFields, DexGraspNet 2.0), mais la majorité des travaux optimisent pour des postures overhead. Côté concurrents directs sur les manipulateurs frontaux contraints, les approches d'Enchanted Tools et les travaux issus du LAAS-CNRS en France explorent des contraintes similaires, bien que sur des plateformes différentes. La prochaine étape logique pour cette équipe serait d'étendre le protocole à des objets articulés ou transparents, et d'intégrer le filtre MVBB dans une boucle de planification réactive plutôt qu'en sélection statique de candidats.

UELe filtre MVBB est directement exploitable sans ré-entraînement par des intégrateurs européens déployant des manipulateurs en configuration frontale sur AMR ou piédestaux fixes, et s'inscrit dans la continuité de travaux menés au LAAS-CNRS et chez Enchanted Tools en France sur des contraintes cinématiques similaires.

💬 Un filtre géométrique pur, injecté en post-traitement, qui multiplie le taux de succès par 2,4 sans ré-entraîner le modèle : c'est le genre de résultat qui devrait faire rougir pas mal d'équipes qui empilent des couches de deep learning là où une contrainte bien posée suffit. Ce qui est vraiment utile ici, c'est qu'ils pointent un biais structurel évident en retrospective : tous les benchmarks standards supposent une caméra en vue de dessus, alors que la moitié des bras déployés en prod sont en configuration frontale sur des AMR ou des piédestaux fixes. Le filtre MVBB, tu peux le brancher demain sur ton pipeline existant.

RobotiquePaper
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
23arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

RechercheOpinion
1 source
Préhension volumétrique équivariante
24arXiv cs.RO 

Préhension volumétrique équivariante

Des chercheurs ont publié sur arXiv (identifiant 2507.18847, troisième révision) un nouveau modèle de planification de saisie robotique volumétrique intégrant des propriétés d'équivariance aux rotations autour de l'axe vertical. Le modèle repose sur une représentation tri-plan : les caractéristiques 3D de la scène sont projetées sur trois plans canoniques (horizontal, frontal, latéral). Sur le plan horizontal, les features sont équivariantes aux rotations de 90°, tandis que la somme des features issues des deux autres plans reste invariante aux réflexions induites par ces mêmes transformations. Les auteurs ont ensuite développé des adaptations équivariantes de deux planificateurs volumétriques de référence, GIGA et IGD. Pour IGD, ils reformulent le mécanisme d'attention déformable en version équivariante. Ils proposent également un modèle génératif des orientations de saisie basé sur le flow matching, une technique de modélisation générative récente. Les résultats expérimentaux, en simulation et en monde réel, montrent une réduction des coûts computationnels et mémoire, ainsi que des performances supérieures à leurs homologues non-équivariants sous contrainte temps réel. L'apport principal est d'ordre pratique pour les intégrateurs robotiques : l'équivariance permet au modèle de généraliser automatiquement une stratégie de saisie apprise depuis une orientation à toutes les rotations équivalentes, sans qu'il soit nécessaire d'augmenter massivement les données d'entraînement. Cela se traduit directement par une meilleure efficacité d'échantillonnage et une empreinte mémoire réduite, deux contraintes critiques pour le déploiement sur hardware embarqué. Le fait que les gains de performance soient maintenus sous contrainte temps réel -- et non seulement en conditions de laboratoire sans limite de calcul -- est un signal pertinent pour les ingénieurs en robotique manipulation industrielle, souvent contraints par des boucles de contrôle à fréquence fixe. GIGA et IGD représentent l'état de l'art récent en grasping volumétrique ; les intégrer plutôt que de proposer une architecture from scratch renforce la crédibilité comparative des résultats. Le champ de l'équivariance géométrique dans les réseaux de neurones connaît une activité soutenue depuis plusieurs années, notamment autour des groupes SO(3) et SE(3), mais les applications concrètes au grasping temps réel restent peu nombreuses. Ce travail s'inscrit dans une tendance à exploiter les symétries physiques pour réduire le coût d'apprentissage, une direction qui intéresse aussi bien les labos académiques que des acteurs industriels comme Boston Dynamics AI Institute ou Physical Intelligence (Pi). Le code et les vidéos de démonstration sont accessibles publiquement sur la page projet des auteurs.

RobotiquePaper
1 source
Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026
25FrenchWeb 

Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026

En 2026, la robotique franchit un cap décisif après des années de promesses non tenues. L'accélération est portée par plusieurs dynamiques convergentes : une pénurie structurelle de main-d'œuvre dans les pays industrialisés, des chaînes logistiques sous pression depuis la pandémie, et une maturité technologique atteinte notamment grâce aux avancées en vision par ordinateur et en apprentissage par renforcement. Des acteurs comme Figure AI, Agility Robotics ou 1X Technologies multiplient les annonces de déploiements industriels à grande échelle, tandis que Boston Dynamics poursuit sa commercialisation avec Spot et Atlas. L'enjeu dépasse désormais le simple gadget d'exposition. Les robots humanoïdes et collaboratifs entrent en production réelle dans des entrepôts Amazon, des usines BMW ou des chaînes d'assemblage Tesla, remplaçant des tâches répétitives à fort risque d'accident. Pour les PME industrielles, l'abaissement du coût d'entrée, certains bras robotisés passent sous les 20 000 euros, ouvre un marché jusqu'ici réservé aux grands groupes. Les syndicats et régulateurs commencent également à s'organiser face à l'impact sur l'emploi. Ce basculement s'explique par une décennie d'investissements massifs : le marché mondial de la robotique devrait dépasser 260 milliards de dollars d'ici 2030 selon la fédération internationale IFR. La Chine, premier marché mondial, y installe chaque année plus de robots que l'ensemble de l'Europe. Les conférences sectorielles de 2026, AUTOMATICA à Munich, IREX à Tokyo, ProMat à Chicago, s'annoncent comme des rendez-vous charnières pour observer quels standards techniques et quels modèles économiques s'imposeront dans cette nouvelle phase industrielle.

UEL'Europe est directement impliquée dans cette transition industrielle, avec des déploiements chez BMW, la conférence AUTOMATICA à Munich comme rendez-vous sectoriel clé en 2026, et des syndicats et régulateurs européens qui commencent à s'organiser face à l'impact sur l'emploi.

💬 Les humanoïdes chez Amazon et Tesla, c'est le show. Ce qui va vraiment tout changer, c'est qu'un bras robotisé passe sous les 20 000 euros, parce que là, les PME industrielles entrent enfin dans la partie. Reste à voir si les intégrateurs suivent.

RobotiqueOpinion
1 source
Humanoids Summit Tokyo 2026, la robotique humanoïde entre dans sa phase industrielle
26FrenchWeb 

Humanoids Summit Tokyo 2026, la robotique humanoïde entre dans sa phase industrielle

Les 28 et 29 mai 2026, Tokyo accueille le Humanoids Summit, un événement qui marque une rupture dans l'histoire de la robotique humanoïde. Pendant plus de vingt ans, ces machines à forme humaine ont occupé un espace ambigu : suffisamment impressionnantes pour alimenter les démos et les ambitions industrielles, mais trop coûteuses, trop fragiles et trop complexes pour s'imposer à grande échelle. En 2026, ce statu quo semble définitivement dépassé, et le secteur affiche une convergence de signaux annonçant une phase de commercialisation réelle. Ce basculement a des conséquences directes pour les entreprises manufacturières, la logistique et les secteurs souffrant de pénuries de main-d'oeuvre. Des robots humanoïdes capables d'opérer dans des environnements conçus pour les humains, sans adapter les infrastructures existantes, représentent une rupture opérationnelle majeure. Pour les industriels, cela ouvre la possibilité d'automatiser des tâches jugées jusqu'ici impossibles à déléguer à des machines : manipulation d'objets variés, déplacement dans des espaces contraints, travail en environnement mixte humain-robot. Ce virage industriel s'explique par la conjonction de plusieurs avancées simultanées : progrès des modèles d'apprentissage par renforcement, baisse des coûts des actionneurs et des capteurs, et afflux massif de capitaux dans le secteur. Des acteurs comme Figure, Agility Robotics, Boston Dynamics ou les concurrents chinois ont atteint des niveaux de maturité suffisants pour envisager des déploiements à grande échelle. Le Humanoids Summit Tokyo 2026 s'impose ainsi comme le point de ralliement d'une industrie qui n'est plus en phase expérimentale.

UELes industriels et logisticiens européens confrontés à des pénuries de main-d'œuvre pourraient être indirectement concernés par l'accélération commerciale des robots humanoïdes, mais aucune entreprise ou réglementation européenne n'est directement impliquée.

💬 C'est le genre de bascule dont on parle depuis dix ans, sauf que là je commence à y croire : les coûts baissent, l'apprentissage par renforcement tient la route, et le cash suit. On passe des robots-démos aux robots-entrepôts, et si tu travailles dans la logistique ou l'industrie manufacturière, tu ferais bien de suivre ça de près. Reste à voir si ça tient 8h de prod en continu, parce que c'est pas le même sport qu'une démo sur scène à Tokyo.

RobotiqueOpinion
1 source
AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)
27arXiv cs.RO 

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié AsyncVLA (arXiv:2511.14148), un cadre pour modèles Vision-Language-Action (VLA) qui remplace le flow matching synchrone (SFM) conventionnel par un mécanisme asynchrone (AFM) à calendrier temporel non uniforme. Là où le SFM applique un pas de temps identique à tous les tokens d'action, AsyncVLA ajuste ce calendrier en fonction du contexte actionnel en cours, et intègre un module "confidence rater" qui évalue la fiabilité de chaque token généré pour déclencher une auto-correction sélective avant exécution. La procédure d'entraînement est unifiée: un seul modèle peut opérer en mode SFM ou AFM, avec une meilleure utilisation du cache KV. Sur les benchmarks de manipulation robotique en simulation et en conditions réelles, AsyncVLA surpasse les méthodes existantes avec une efficacité accrue en données d'entraînement. Le code est publié en open source sur GitHub. L'instabilité des VLA sur les tâches longue durée (long-horizon) est l'un des principaux freins à leur déploiement industriel: en SFM, une erreur d'action se propage en cascade jusqu'à l'échec complet de la séquence. La capacité d'auto-correction d'AsyncVLA adresse directement ce point, ce qui intéresse les intégrateurs et les équipes robotiques confrontées à des cycles opératoires de plusieurs minutes. L'efficacité en données est un argument complémentaire: entraîner des VLA compétitifs nécessite aujourd'hui des datasets massifs et coûteux, et une méthode qui atteint de meilleures performances avec moins de données réduit la barrière d'entrée. Il faut toutefois nuancer: le papier se limite à des benchmarks de manipulation sans publier de chiffres de déploiement à l'échelle, de temps de cycle réels, ni de résultats sur une flotte opérationnelle. Les VLA à base de flow matching ont été popularisés par Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2024, établissant un standard de génération d'actions continues pour la robotique généraliste. AsyncVLA s'inscrit dans une tendance de raffinement algorithmique de ces architectures, aux côtés d'approches comme OpenVLA, la distillation de politique diffusion, ou les modèles hybrides VLA et planificateur symbolique. Son avantage comparatif est la compatibilité directe avec les pipelines SFM existants, sans rupture architecturale majeure, ce qui facilite l'adoption par les équipes déjà engagées sur ces bases. Les prochaines étapes crédibles seraient une validation sur des robots humanoïdes (Figure, 1X, Unitree) ou des bras industriels en production réelle, là où la robustesse long-horizon reste le goulot d'étranglement dominant.

💬 Le problème de propagation d'erreur en cascade dans les VLA, c'est exactement ce qui bloque le déploiement industriel depuis des mois. AsyncVLA l'attaque frontalement avec un mécanisme de correction sélective avant exécution, et la compatibilité directe avec les pipelines SFM existants (Pi-0, GR00T) rend l'adoption crédible sans tout casser. Reste à voir ce que ça donne sur des cycles de 10 minutes en prod réelle, pas juste en simulation.

RechercheOpinion
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
28arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

RobotiqueOpinion
1 source
Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini
29VentureBeat AI 

Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini

Hugging Face, la startup new-yorkaise fondée il y a dix ans et devenue la référence mondiale pour l'hébergement de modèles d'IA open source, a lancé un App Store dédié à son robot de bureau Reachy Mini. Cette boutique d'applications compte déjà plus de 200 créations communautaires, toutes téléchargeables gratuitement par les propriétaires du robot. Le Reachy Mini, commercialisé à 299 dollars depuis juillet 2025 après le rachat de la startup Pollen Robotics par Hugging Face, s'est vendu à environ 10 000 unités en moins d'un an. Petit robot de bureau fixe, il est équipé d'une caméra, d'un haut-parleur et d'un microphone, et peut désormais être programmé sans aucune compétence en ingénierie grâce à l'agent IA maison baptisé "ML Intern". Il suffit de décrire un comportement en langage naturel, comme "faire un signe de la main quand quelqu'un dit bonjour", et l'agent génère, teste et déploie le code correspondant en quelques minutes. L'enjeu dépasse largement la nouveauté gadget : Hugging Face veut faire pour la robotique ce qu'Apple a fait pour le smartphone, c'est-à-dire rendre la création d'applications accessibles à des millions de personnes sans formation technique. Jusqu'ici, développer une application robotique nécessitait de maîtriser des SDK propriétaires, la gestion du firmware et des abstractions matérielles complexes. En éliminant cette barrière, la plateforme permet à des non-ingénieurs de livrer des logiciels robotiques fonctionnels en moins d'une heure. Le PDG Clément Delangue voit également dans ce store un terrain d'expérimentation pour les créateurs de modèles d'IA, qui pourront tester les capacités physiques de leurs nouvelles architectures directement sur un robot réel. La difficulté historique de la robotique tient au manque de données d'entraînement spécifiques : là où les grands modèles de langage ont pu s'appuyer sur des centaines de milliards de lignes de code généraliste via GitHub, les dépôts robotiques restent marginaux, avec seulement 17 000 repositories publics recensés. Hugging Face contourne ce problème en proposant une couche d'abstraction agnostique, compatible avec GPT-5.5, Claude Opus 4.6, Gemini Live, OpenAI Realtime et plusieurs autres modèles. Cette ouverture multiple crée un écosystème qui ne dépend d'aucun acteur unique. La prochaine étape sera probablement l'introduction d'options de monétisation pour les développeurs d'applications, absentes au lancement. Si la dynamique se confirme, Hugging Face pourrait transformer le Reachy Mini en plateforme de référence pour la robotique grand public, à l'heure où Boston Dynamics, Figure et d'autres misent sur des machines bien plus coûteuses et fermées.

UEHugging Face est fondée par des Français et Pollen Robotics (fabricant du Reachy Mini) est une startup française de Bordeaux, ce lancement positionne l'écosystème français en tête de la robotique grand public open source mondiale.

💬 300 dollars, 200 apps communautaires, un agent qui génère le code depuis une phrase, bon, sur le papier c'est exactement ce qu'il fallait pour que la robotique grand public décolle enfin. La comparaison avec l'App Store d'Apple est surjouée, mais les briques techniques sont là cette fois, et Pollen Robotics de Bordeaux dans la boucle c'est un beau signal pour l'écosystème français. Reste à voir si les usages dépassent le gadget de bureau dans six mois.

RobotiqueOpinion
1 source
La Corée du Sud vient de créer un moine robot : même Black Mirror n’avait pas osé
30Le Big Data 

La Corée du Sud vient de créer un moine robot : même Black Mirror n’avait pas osé

Le 6 mai 2026, à la veille de l'anniversaire de Bouddha, le temple Jogye de Séoul, principal centre de l'ordre bouddhiste éponyme, l'un des plus influents de Corée du Sud, a organisé une cérémonie d'ordination pour un robot humanoïde. L'appareil, baptisé Gabi lors du rituel, mesure 1,30 mètre et repose sur la plateforme Unitree G1. Vêtu d'une robe monastique grise et brune, il s'est présenté devant des moines et des fidèles, les mains jointes, s'inclinant tandis qu'un moine lui remettait un chapelet de 108 perles. Un autocollant a remplacé la marque physique habituellement laissée par la brûlure d'encens. Cinq préceptes ont été spécialement réécrits pour lui : respecter la vie, ne pas endommager d'autres robots ou objets, obéir aux humains, éviter les comportements trompeurs et économiser son énergie. Gabi participera prochainement au festival des lanternes bouddhistes aux côtés de trois autres robots, Seokja, Mohee et Nisa. Au-delà du spectacle, l'initiative porte une intention explicitement philosophique. Le vénérable Seong Won, responsable culturel de l'ordre Jogye, a présenté l'ordination non comme un coup de communication mais comme une invitation à réfléchir à la coexistence entre humains et machines dans une société où l'intelligence artificielle occupe une place croissante. Pour les concepteurs du projet, intégrer un robot dans un espace aussi intimement humain que la spiritualité est précisément ce qui force la question : jusqu'où l'IA peut-elle s'immiscer dans des domaines que l'on croyait réservés à la conscience et à l'expérience subjective ? Le fait que les moines aient consulté ChatGPT et Gemini pour rédiger les règles morales de Gabi, une IA aidant à définir les principes éthiques d'un autre robot, illustre à quel point les frontières sont déjà brouillées. Cette ordination s'inscrit dans un contexte national particulier : la Corée du Sud est l'un des pays les plus avancés au monde en robotique et en adoption de l'IA, avec des robots déployés dans les cafés, les hôtels et les hôpitaux. L'ordre Jogye, qui administre plus de 1 700 temples à travers le pays, dispose d'une forte influence culturelle et d'une capacité réelle à faire résonner ce type d'initiative dans l'opinion publique. En choisissant d'ordonner un robot plutôt que de simplement l'exposer, les moines franchissent un pas symbolique fort : ils reconnaissent implicitement que la question de la place des machines dans la société humaine concerne désormais tous les espaces, y compris les plus sacrés. La prochaine étape, la participation de Gabi au festival des lanternes, sera un test grandeur nature de la réaction du public face à cette hybridation inédite entre tradition millénaire et technologie de pointe.

SociétéOpinion
1 source
Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique
31Robotics Business Review 

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne fondée par Zhou Xian et basée à San Carlos, a dévoilé GENE-26.5, un modèle fondamental d'IA conçu pour la manipulation robotique dextre bimanuelle. Sortie de stealth l'an dernier avec une levée de 105 millions de dollars, l'entreprise annonce avoir résolu le principal verrou du secteur : le manque de données d'entraînement pour les tâches à haute dextérité. GENE-26.5 repose sur deux composants propriétaires : un moteur de données à grande échelle et une main robotique dimensionnée à l'échelle humaine, couplée à un gant de collecte doté d'une peau électronique tactile. Ce gant permet une correspondance 1:1:1 entre la main du démonstrateur, le gant et l'effecteur robotique, facilitant le transfert direct de compétences humaines vers le robot sans recodage. Pour illustrer les capacités du modèle, Genesis AI a publié des vidéos montrant la réalisation d'une recette en 20 étapes (découpe de tomates, cassage d'oeuf à une seule main, coordination bimanuelle), la préparation d'un smoothie avec service en vol, des expériences de laboratoire impliquant pipetage et transferts de liquides, du câblage de faisceaux électriques, la résolution d'un Rubik's Cube en manipulation aérienne, la préhension simultanée de quatre objets de tailles différentes, et l'interprétation d'une composition pianistique complexe. L'enjeu industriel est direct : le câblage de faisceaux électriques, désigné par l'entreprise comme "l'une des tâches les plus difficiles en électronique", représente des milliers de postes non automatisés dans les secteurs automobile et aérospatial, faute de robots capables de gérer la variabilité géométrique des fils. Si les performances démontrées se confirment hors conditions de laboratoire contrôlées - ce que des vidéos promotionnelles soigneusement sélectionnées ne permettent pas d'établir -, cela ouvrirait un marché significatif pour les intégrateurs cherchant à robotiser des tâches à haute variabilité morphologique. L'approche de Genesis AI vise à combler l'"embodiment gap" : l'écart de morphologie entre humain et robot qui a historiquement limité l'efficacité des modèles entraînés sur données humaines. L'investissement d'Eric Schmidt, ex-PDG de Google, dans la société souligne l'intérêt stratégique croissant pour ce segment au-delà du seul milieu robotique. Genesis AI s'inscrit dans une course à la manipulation dextre où plusieurs acteurs avancent en parallèle : Physical Intelligence avec son modèle Pi-0, Sanctuary AI et les équipes manipulation de Figure (Figure 03) et Tesla (Optimus Gen 3) développent également des architectures de type VLA (Vision-Language-Action) pour le contrôle fin des effecteurs. Genesis AI se distingue en concentrant son offre exclusivement sur la main et la manipulation bimanuelles, sans plateforme humanoide annoncée à ce stade. Le communiqué reste toutefois vague sur les suites opérationnelles : aucun pilote industriel nommé, aucune timeline de déploiement ni tarification n'est communiqué, ce qui place cette annonce clairement du côté de la démonstration technologique plutôt que du produit commercialisé.

RobotiqueOpinion
1 source
Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes
32Le Big Data 

Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes

Boston Dynamics a publié le 5 mai 2026 une courte vidéo montrant son robot humanoïde Atlas réaliser un appui tendu renversé suivi d'un L-sit maintenu plusieurs secondes, avant de se relever sans assistance. Cette nouvelle génération d'Atlas affiche des caractéristiques techniques imposantes : 1,88 mètre de hauteur (6,2 pieds), 90 kilogrammes, 56 degrés de liberté articulaire, des rotations à 360° sur les articulations clés, une protection IP67 contre la poussière et l'eau, et une plage de fonctionnement de -20° à +40°C. Ce n'est plus un prototype de laboratoire : il s'agit d'une version conçue pour une industrialisation future, avec seulement deux types d'actionneurs distincts dans l'ensemble du corps. Le L-sit est une figure de gymnastique artistique qui exige une force abdominale extrême, un équilibre millimétré et une coordination quasi parfaite, déjà difficile pour un humain entraîné, quasi insoluble pour une machine de 90 kilos jusqu'à récemment. Ce que Boston Dynamics démontre ici, c'est la maturité de son pipeline d'apprentissage par renforcement : Atlas s'entraîne en simulation virtuelle sur des milliers d'essais, affine ses stratégies de mouvement, puis transfère ces réflexes acquis vers le robot physique. Le résultat visible est frappant, les gestes ne ressemblent plus à des séquences programmées point par point, mais à un équilibre instinctif, comme si la machine anticipait ses propres pertes de stabilité avant qu'elles ne surviennent. C'est un saut qualitatif majeur : la fluidité du mouvement est désormais comparable à celle d'un gymnaste humain de niveau intermédiaire. Derrière la démonstration spectaculaire, les enjeux sont industriels et stratégiques. Le travail sur la locomotion généraliste est piloté par le RAI Institute, dirigé par Marc Raibert, fondateur historique de Boston Dynamics, avec l'objectif de créer un système de contrôle unifié capable de gérer aussi bien la marche quotidienne que les figures acrobatiques. Hyundai, propriétaire de Boston Dynamics depuis 2021, prévoit de déployer Atlas dans sa gigantesque usine de Géorgie dès 2028, et vise à terme une production de 30 000 unités humanoïdes par an. Atlas n'est cependant pas seul sur ce marché : Figure, Agility Robotics, Tesla avec Optimus, et plusieurs startups chinoises se disputent les mêmes contrats industriels. Boston Dynamics possède probablement l'humanoïde techniquement le plus avancé, mais la transition d'une vidéo virale à une ligne de production fiable, rentable et à grande échelle reste le vrai défi, et c'est là que la compétition se jouera dans les deux prochaines années.

RobotiqueOpinion
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
33arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

RobotiqueOpinion
1 source
RLDX-1 : rapport technique
34arXiv cs.RO 

RLDX-1 : rapport technique

Un rapport technique déposé sur arXiv le 6 mai 2026 présente RLDX-1, une politique robotique généraliste conçue pour la manipulation dextre complexe. L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), intègre des modalités hétérogènes via des flux spécialisés par modalité couplés à une attention croisée inter-modale (cross-modal joint self-attention). Cette conception cible trois lacunes persistantes des modèles Vision-Langage-Action (VLA) actuels : la conscience du mouvement (motion awareness), la prise de décision avec mémoire contextuelle, et l'intégration de retours sensoriels physiques. Le système combine cette architecture avec des choix de conception système : génération synthétique de données d'entraînement pour les scénarios de manipulation rares, procédures d'apprentissage spécialisées pour un geste proche du mouvement humain, et optimisations d'inférence pour le déploiement temps réel. Sur le benchmark ALLEX, conçu pour évaluer le contrôle de robots humanoïdes à haut degré de liberté (DoF) sous des exigences fonctionnelles variées, RLDX-1 atteint un taux de succès de 86,8 % contre environ 40 % pour π0.5 (Physical Intelligence) et GR00T N1.6 (NVIDIA), soit un écart de plus de 45 points. Ces résultats, obtenus à la fois en simulation et sur des tâches en environnement réel, indiquent que l'architecture MSAT surpasse les VLA de référence sur des tâches impliquant des contacts riches, des dynamiques rapides et des contraintes sensorimotrices multiples. C'est précisément sur ce segment -- la manipulation dextre en conditions réelles, pas en démonstration contrôlée -- que le fossé entre recherche et déploiement industriel reste le plus large, et que ces chiffres méritent une validation indépendante avant d'être pris au pied de la lettre. Les VLA ont connu une accélération marquée depuis 2024, portés par RT-2 (Google DeepMind), OpenVLA, puis la série π0/π0.5 de Physical Intelligence et la famille GR00T de NVIDIA. RLDX-1 s'inscrit dans cette dynamique en cherchant à dépasser le paradigme "versatilité générale" pour cibler des capacités fonctionnelles élargies sur des robots humanoïdes haute-DoF. Aucune affiliation institutionnelle ou entreprise n'est clairement identifiée dans l'abstract publié -- le rapport reste à ce stade un preprint non revu par les pairs, sans annonce de déploiement ni calendrier de commercialisation. Les étapes naturelles suivantes incluront une validation indépendante des benchmarks et une évaluation sur des plateformes humanoïdes commerciales comme celles de Figure, Unitree ou Agility Robotics.

RobotiqueOpinion
1 source
OGPO : un affinage complet et efficace des politiques de contrôle génératives
35arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

RechercheOpinion
1 source
Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24
36Le Big Data 

Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24

Le rédacteur en chef de LeBigData.fr était l'invité d'Ali Laïdi dans l'émission "Aux avant-postes" sur France 24 pour évoquer l'essor des robots humanoïdes et leurs effets sur le marché du travail. Alors que les débats publics restent concentrés sur les IA génératives comme ChatGPT, une autre transformation s'accélère discrètement dans les laboratoires de la Silicon Valley et de Chine : des robots comme Optimus de Tesla, Atlas de Boston Dynamics, ou encore les modèles de Figure et Unitree ne sont plus de simples démonstrations technologiques. Ils sont désormais en phase de déploiement industriel réel, dans des usines et des entrepôts, avec une capacité croissante à manipuler des objets, porter des charges lourdes et s'adapter à des environnements non structurés. Le point de bascule mis en avant lors de cette intervention n'est pas technologique mais économique : le coût d'exploitation d'un robot humanoïde pourrait descendre à environ 1 dollar de l'heure d'ici quelques années. À ce niveau de prix, aucun marché du travail humain, même dans les économies à bas salaires, ne peut soutenir la comparaison. Les secteurs de la logistique, de la manutention et de la production industrielle seraient les premiers touchés, avant que l'automatisation physique ne s'étende progressivement aux environnements de bureau. Pour les entreprises, le calcul deviendra rapidement incontournable ; pour les travailleurs de ces filières, la transition risque d'être brutale et rapide. La question centrale que soulève cette mutation dépasse largement le cadre technologique : si le travail physique humain devient facultatif dans des pans entiers de l'économie, comment les États financeront-ils leurs systèmes de protection sociale, historiquement adossés aux cotisations salariales ? Comment redéfinir la valeur et la place de l'individu dans une économie massivement automatisée ? Ces enjeux, encore largement absents des agendas politiques, s'inscrivent dans un calendrier serré : les cinq prochaines années seront décisives selon l'intervenant, qui a approfondi ces questions dans un essai récemment publié, "Robots humanoïdes : vont-ils prendre votre travail ? Ce qui vous attend vraiment d'ici 2030". Pendant que les gouvernements débattent de la régulation des algorithmes, les déploiements physiques, eux, avancent à un rythme que peu d'acteurs institutionnels semblent encore mesurer.

UELa question du financement des systèmes de protection sociale français et européens, historiquement adossés aux cotisations salariales, est directement posée par la perspective d'une automatisation physique massive d'ici 2030.

RobotiqueOpinion
1 source
Top Robots Avril 2026 : Usine, sport, salon… l’IA prend le contrôle
37Le Big Data 

Top Robots Avril 2026 : Usine, sport, salon… l’IA prend le contrôle

En avril 2026, la robotique humanoïde a franchi plusieurs seuils symboliques simultanément. L'Unitree G1 a fait le tour du monde avec une vidéo montrant le robot passer sans transition de la marche au roller puis au patinage sur glace, enchaînant des saltos avant, grâce à des modules à roues interchangeables placés sous ses pieds et une IA capable d'adapter l'équilibre en temps réel. Le Toyota CUE 7 a validé un tir au panier à 24 mètres, mais l'essentiel se passe après un raté : sa vision 3D a analysé l'échec en une fraction de seconde, recalculé l'angle et la friction de l'air, puis planté le tir suivant. Sony a présenté le Project Ace, un robot pongiste équipé de neuf caméras synchronisées qui a battu des joueurs professionnels, lesquels ont tous évoqué le même désarroi : l'absence totale d'émotion et d'imprévisibilité de la machine. Enfin, lors du semi-marathon de Pékin, le robot "Lightning" sponsorisé par Honor a bouclé les 21 kilomètres en 50 minutes et 26 secondes, battant le record du monde humain à une moyenne de 25 km/h, grâce à un système de refroidissement liquide propriétaire conçu pour empêcher ses moteurs de surchauffer. Ce qui distingue avril 2026 des mois précédents, c'est que ces performances ne sont plus des démonstrations de laboratoire isolées : elles surviennent dans des environnements réels, face à des professionnels humains, et sous forme de produits en phase de déploiement. Le basculement le plus significatif est industriel : des fabricants chinois atteignent désormais des cadences de production d'un robot humanoïde par heure, transformant ce qui était un objet de recherche en bien manufacturé à grande échelle. Pour les entreprises industrielles, les prestataires logistiques et, à terme, les particuliers, la question n'est plus de savoir si ces machines seront disponibles, mais à quel prix et dans quel délai. Ces percées s'inscrivent dans une dynamique d'accélération sans précédent. Depuis 2024, les investissements dans la robotique humanoïde ont explosé, portés par la convergence entre les progrès des modèles de langage, de la vision par ordinateur et des matériaux légers à haute résistance. La Chine occupe une position dominante dans la course à la production de masse, avec des acteurs comme Unitree et des équipes issues de l'automobile comme les fondateurs de KAI, l'assistant domestique conçu par d'anciens ingénieurs de XPeng. Les États-Unis et le Japon répondent avec des approches plus spécialisées, Sony et Toyota visant la précision sportive plutôt que le volume. La prochaine étape sera l'intégration de ces robots dans des environnements non contrôlés, où l'improvisation et la robustesse face à l'inattendu détermineront les vrais gagnants de cette décennie.

UELa montée en cadence de production chinoise (un robot humanoïde par heure) va accélérer la disponibilité et comprimer les coûts pour les industriels et logisticiens européens, rendant urgente une réflexion stratégique sur l'intégration de ces machines.

💬 Le salto de l'Unitree et le semi-marathon en 50 minutes, c'est spectaculaire, bon. Mais le vrai chiffre du mois, c'est un humanoïde sorti d'usine par heure en Chine : on passe du prototype de recherche au bien manufacturé à grande échelle, et ça va s'accélérer vite. La vraie question pour les industriels européens, c'est pas encore le prix, c'est qu'on n'a pas les équipes pour intégrer ces machines.

RobotiqueActu
1 source
VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
38arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

RobotiqueOpinion
1 source
Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs
39arXiv cs.RO 

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

Une équipe de recherche publie sur arXiv (arXiv:2605.01191, mai 2026) Sentinel-VLA, un modèle de type vision-language-action (VLA) doté d'un module de surveillance active baptisé "sentinel". Contrairement aux VLA classiques qui exécutent des plans fixes, Sentinel-VLA déclenche un raisonnement approfondi uniquement lorsque c'est nécessaire : lors de la planification initiale d'une tâche, ou lorsque le module sentinel détecte une erreur d'exécution en temps réel. L'ensemble des données d'entraînement, couvrant 44 tâches et plus de 2,6 millions de transitions, a été généré et annoté automatiquement via un pipeline dédié. Le modèle intègre également l'algorithme SECL (Self-Evolving Continual Learning), qui lui permet d'identifier ses propres limites de compétence et de collecter automatiquement de nouvelles données pour les repousser, combiné à un adaptateur OC-Adapter (Orthogonal Continual Adapter) qui contraint les mises à jour de paramètres dans un espace orthogonal pour éviter l'oubli catastrophique. En conditions réelles (les détails des configurations expérimentales ne sont pas encore disponibles dans cette prépublication), les auteurs rapportent un gain de plus de 30 % de taux de succès par rapport à PI0, le modèle de Physical Intelligence actuellement considéré comme état de l'art. Le code, les poids et le pipeline de génération de données seront publiés en open source. Ces résultats, si confirmés par la communauté, adressent un blocage majeur dans le déploiement industriel des robots manipulateurs : l'incapacité à se corriger face à une perturbation imprévue. Les VLA existants, qu'il s'agisse de PI0, d'OpenVLA ou des dérivés de RT-2, produisent des plans d'action relativement rigides et échouent dès lors qu'une pièce est mal positionnée ou qu'un objet glisse. Le mécanisme "sentinel" propose une réponse architecturale à ce problème en dissociant l'exécution routinière (peu coûteuse en calcul) du raisonnement correctif (déclenché à la demande), ce qui est pertinent pour un déploiement sur du matériel embarqué à puissance de calcul limitée. L'approche SECL, qui combine auto-évaluation des capacités et apprentissage continu sans oubli, représente également une piste sérieuse pour les intégrateurs qui cherchent à étendre progressivement le répertoire de tâches d'un robot sans retraining complet. Il convient néanmoins de noter que le +30 % annoncé est issu d'expériences en laboratoire dont le protocole exact reste à préciser, et que les vidéos de démonstration n'ont pas encore été rendues publiques au moment de cette prépublication. Sentinel-VLA s'inscrit dans une vague de travaux cherchant à rendre les VLA robustes hors environnement contrôlé, une problématique que Physical Intelligence avait mise en lumière avec PI0 (lancé fin 2024) et que des acteurs comme Figure AI (Figure 03), Boston Dynamics ou 1X Technologies tentent également d'adresser côté hardware. Du côté recherche, les laboratoires de Carnegie Mellon, Stanford et Berkeley publient régulièrement des variantes de VLA avec des stratégies de correction différentes (chain-of-thought embarqué, boucles de feedback visuelles). La particularité de Sentinel-VLA est de traiter la correction non comme un post-processing, mais comme une composante native de l'architecture. L'open-source annoncé, code, poids et pipeline de données, pourrait accélérer l'adoption de cette approche dans la communauté académique et chez les constructeurs de robots à budget R&D contraint. Aucune date de release ni partenariat industriel n'est mentionné dans cette version préliminaire.

UELa publication open-source prévue (code, poids, pipeline de données) pourrait bénéficier aux laboratoires de robotique européens travaillant sur les VLA manipulateurs, mais aucun acteur français ou européen n'est directement impliqué dans cette prépublication.

💬 Ce qui m'intéresse ici, c'est pas le +30% (les configs restent floues, faut attendre les vidéos), c'est que la correction d'erreur est dans l'archi, pas greffée dessus après coup. Sur du matériel embarqué avec peu de calcul disponible, c'est le genre de truc qu'on attendait depuis un moment. Reste à voir si ça tient hors labo, mais l'open source annoncé va vite mettre ça à l'épreuve.

RobotiqueOpinion
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
40Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

RobotiqueOpinion
1 source
Meta veut devenir l’Android des robots humanoïdes
41Next INpact 

Meta veut devenir l’Android des robots humanoïdes

Meta a confirmé auprès de Bloomberg l'acquisition d'Assured Robot Intelligence (ARI), une startup spécialisée dans le développement de modèles d'intelligence artificielle pour la robotique. L'équipe d'ARI, présentée par Meta comme se situant « à la pointe de l'intelligence robotique, conçue pour permettre aux robots de comprendre, prévoir et s'adapter aux comportements humains dans des environnements complexes et dynamiques », rejoint le Meta Superintelligence Labs. Elle travaillera étroitement avec le Meta Robotics Studio, une division créée en février 2025 pour développer les technologies de base des robots humanoïdes. Ce rachat s'inscrit dans une stratégie plus large : Meta a déjà présenté en octobre 2025 des prototypes de capteurs tactiles avancés, le Digit Plexus, une solution matérielle pour intégrer des capteurs dans une main robotique, et le Digit 360, un capteur en forme de doigt fournissant des données haptiques très précises. Le géant des réseaux sociaux aurait par ailleurs déjà engagé des discussions avec Unitree Robotics, fabricant chinois connu pour ses robots acrobatiques, ainsi qu'avec Figure AI. L'ambition de Meta ne se limite pas à fabriquer ses propres robots : l'entreprise veut jouer un rôle de plateforme transversale pour toute l'industrie, sur le modèle d'Android et des puces Qualcomm dans l'écosystème des smartphones. Si ce positionnement réussit, Meta se retrouverait en position centrale dans un marché potentiellement colossal, en fournissant les briques logicielles et matérielles sur lesquelles d'autres constructeurs bâtiront leurs produits. L'enjeu industriel est réel : Amazon estime que les robots humanoïdes lui permettront d'éviter 600 000 embauches d'ici 2033, signal fort que la demande en environnements professionnels précède largement celle du grand public. Ce mouvement s'inscrit dans une dynamique de fond déclenchée par l'essor de l'IA générative, qui a fourni aux robots la capacité de comprendre des consignes en langage naturel, de décomposer des tâches complexes et de s'adapter à des situations imprévues, ce que les systèmes robotiques classiques ne pouvaient pas faire seuls. De nombreuses entreprises ont flairé l'opportunité d'un nouveau marché lucratif, et la compétition se structure rapidement. Tesla mise sur une approche intégrée verticalement avec Optimus, Elon Musk ayant promis lors du Forum de Davos une commercialisation possible dès fin 2026. Meta, dont le laboratoire de recherche fondamentale FAIR a vu son influence diminuer depuis le départ de Yann LeCun, réoriente clairement ses ressources vers ce chantier via le Superintelligence Labs. La question est désormais de savoir si le modèle « couche d'infrastructure ouverte » peut s'imposer face aux acteurs qui cherchent à tout contrôler, de la puce au châssis.

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs
42arXiv cs.RO 

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs

Un framework de contrôle humanoïde baptisé ExoActor a été publié en preprint sur arXiv (2604.27711, avril 2026) par une équipe proposant d'utiliser la génération vidéo en vue tierce comme interface unifiée de commande robotique. Le principe : à partir d'une instruction textuelle et du contexte visuel de la scène, ExoActor génère une vidéo synthétique d'exécution plausible, extrait les cinématiques humaines correspondantes, puis les transmet à un contrôleur de mouvement généraliste pour produire une séquence comportementale exécutable. Le pipeline complet, implémenté de bout en bout, est évalué sur des scénarios inédits sans collecte additionnelle de données réelles. L'intérêt de l'approche réside dans la manière dont elle attaque un verrou central du contrôle humanoïde : modéliser des comportements riches en interactions entre le robot, son environnement et les objets manipulés, tout en capturant simultanément contexte spatial, dynamiques temporelles et intention de tâche. Plutôt qu'un VLA classique mappant directement observations vers actions, ExoActor intercale une représentation vidéo comme espace latent intermédiaire, dont la capacité de généralisation provient de grands modèles vidéo pré-entraînés à l'échelle. Si les résultats de généralisation sont confirmés sur des benchmarks indépendants, cela ouvrirait une alternative sérieuse à la collecte coûteuse de données de téléopération que supportent actuellement des acteurs comme Figure AI, Agility Robotics ou 1X Technologies. Cette publication s'inscrit dans un courant cherchant à court-circuiter les démonstrations réelles via des modèles génératifs. Elle dialogue avec Pi-0 de Physical Intelligence (diffusion sur flux d'actions), GR00T N2 de NVIDIA (entraîné sur données humaines synthétiques et réelles), ainsi qu'avec UniSim et IRASim qui utilisent la synthèse vidéo comme simulateur de politique. La spécificité d'ExoActor est l'usage explicite d'une perspective exocentrique, vue tierce personne, là où d'autres approches travaillent en vue égocentrique. Les auteurs reconnaissent les limitations actuelles, notamment la qualité de l'estimation de mouvement humain à partir de vidéo synthétique. Aucun déploiement industriel ni partenariat commercial n'est annoncé : ExoActor reste à ce stade une contribution académique.

RobotiqueOpinion
1 source
Shengshu Technology lance Motubrain, son modèle monde-action
43Pandaily 

Shengshu Technology lance Motubrain, son modèle monde-action

La société chinoise Shengshu Technology a annoncé Motubrain, un modèle dit "monde-action" (world-action model) conçu comme cerveau unifié pour systèmes d'IA incarnée. L'architecture fusionne modélisation du monde et génération d'actions dans un cadre unique, avec pour ambition de couvrir l'adaptation cross-embodiment, la généralisation multi-tâches et l'exécution de séquences longues. Sur les benchmarks, Motubrain revendique la première place dans deux évaluations internationales : un score EWM de 63,77 sur WorldArena, et un score supérieur à 95 sur RoboTwin 2.0 en environnement aléatoire, ce qui en ferait le seul modèle à franchir ce seuil. En démonstration réelle, le système a été présenté sur des tâches comme la composition florale, le service de cocktails et la cuisine, en maintenant, selon l'entreprise, des performances cohérentes sur plusieurs plateformes robotiques distinctes. Shengshu annonce des partenariats avec plusieurs fabricants de robots pour accélérer le déploiement, sans préciser lesquels ni sur quels volumes. L'annonce s'inscrit dans une dynamique de fond : la convergence entre modèles de monde et modèles d'action est devenue l'un des paris stratégiques majeurs de la robotique généraliste. Là où les approches VLA (Vision-Language-Action) classiques séparent compréhension et génération de mouvement, Motubrain prétend les unifier, ce qui, si les résultats benchmark sont confirmés en conditions industrielles, changerait le calcul pour les intégrateurs : moins de pipelines à orchestrer, meilleure robustesse aux variations d'environnement. Le score RoboTwin 2.0 est particulièrement scruté car ce benchmark cible spécifiquement la manipulation bimanuele en environnement non structuré, un goulot d'étranglement persistant pour le déploiement en atelier. Il convient néanmoins de noter que les démonstrations vidéo publiées restent des cas sélectionnés, sans données de taux de succès sur cycles répétés ni de latence end-to-end, ce qui rend difficile une comparaison rigoureuse avec des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Shengshu Technology est actif dans l'espace de la génération vidéo et des modèles génératifs chinois depuis plusieurs années, mais Motubrain marque un pivot explicite vers l'IA incarnée. Sur le plan concurrentiel, le modèle se positionne face à Pi-0 (Physical Intelligence), Helix (Figure), RDT-1B (Tsinghua) et les initiatives en cours chez 1X et Agility. La Chine accélère significativement dans ce segment, avec des acteurs comme Unitree, AGIBOT et désormais Shengshu qui visent une commercialisation de modèles fondationnels pour robots plutôt que des robots clés en main. Les prochaines étapes annoncées concernent le déploiement chez des partenaires industriels non nommés, sans calendrier précis ni confirmation d'un accès public au modèle.

UELa montée en puissance des modèles fondationnels chinois pour la robotique incarnée intensifie la pression concurrentielle sur les acteurs européens du VLA et de l'IA physique, sans impact direct identifiable à ce stade.

RobotiqueOpinion
1 source
Galbot lance LDA-1B, un modèle du monde-action en open source
44Pandaily 

Galbot lance LDA-1B, un modèle du monde-action en open source

Galbot a publié LDA-1B, un modèle fondation monde-action cross-embodiment de 1,6 milliard de paramètres, construit sur son architecture propriétaire WAM (World-Action Model). Ce modèle unifie modèles de monde et modèles d'action au niveau des données, permettant un apprentissage conjoint sur données de simulation et données réelles, données humaines et robotiques, ainsi que sur jeux de données d'action labellisés et non labellisés. LDA-1B peut s'adapter à différentes morphologies de robots après seulement une heure de post-entraînement, selon Galbot. À mesure que le volume de données d'entraînement est passé de 5 000 à 30 000 heures, l'erreur de prédiction d'action a diminué de façon continue, démontrant un comportement de scaling cohérent. La recherche a été acceptée à RSS 2026 et le code source est désormais public. Le modèle est intégré dans AstraBrain et AstraData, l'infrastructure de déploiement de Galbot, couvrant la logistique industrielle, les tâches domestiques et les scénarios retail. En avril 2026, la société est l'entreprise d'IA incarnée non cotée la mieux valorisée en Chine, avec une valorisation dépassant 20 milliards de yuans (2,8 milliards de dollars). Plusieurs points méritent attention. La capacité d'adaptation cross-embodiment en une heure de fine-tuning est une affirmation forte, mais elle reste à valider hors démonstrations contrôlées. Le comportement de scaling confirmé entre 5 000 et 30 000 heures de données est un signal positif pour les VLA (Vision-Language-Action models) à grande échelle, suggérant que les lois d'échelle s'appliquent à l'action robotique de façon analogue aux LLM textuels. L'open-source du codebase réduit la barrière d'entrée pour les intégrateurs souhaitant expérimenter sans infrastructure propriétaire, et positionne Galbot comme fournisseur d'infrastructure fondationale, pas seulement constructeur de robots. Galbot est une startup spécialisée dans les robots humanoïdes et l'IA incarnée. LDA-1B entre en compétition directe avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches internes de Figure AI et Agility Robotics côté américain. En Chine, la société rivalise avec Unitree et UBTECH sur le terrain humanoïde. L'acceptation à RSS 2026 lui confère une légitimité académique rare dans ce secteur encore dominé par les communiqués marketing. Les prochaines étapes probables incluent des pilotes industriels en logistique et retail, et une expansion internationale que la valorisation de 2,8 milliards de dollars rend plausible.

UEPression concurrentielle indirecte sur les équipes VLA européennes (INRIA, CEA-List), mais aucun déploiement ni partenariat européen annoncé.

💬 Le comportement de scaling sur les données robotiques, c'est le vrai signal ici, pas le chiffre de valorisation. Que les lois d'échelle s'appliquent à l'action physique comme au texte, ça dit quelque chose sur ce qu'on va voir dans 3 ans, et tu commences à comprendre pourquoi les gros acteurs américains s'agitent. L'open source est une bonne décision stratégique, mais une heure de fine-tuning pour changer de morphologie de robot, j'attends de voir ça hors démo contrôlée.

RobotiqueOpinion
1 source
C’est incroyable ! Figure AI passe à 55 robots en une semaine (et ça inquiète)
45Le Big Data 

C’est incroyable ! Figure AI passe à 55 robots en une semaine (et ça inquiète)

Figure AI vient de franchir un cap industriel majeur dans la robotique humanoïde. En seulement 120 jours, la startup californienne a multiplié par 24 sa cadence de production sur son site BotQ, passant d'un robot par jour à un robot par heure, soit 55 unités sur la semaine du 29 avril 2026. Cette montée en puissance repose sur une chaîne de fabrication entièrement repensée : plus de 150 postes de travail connectés, un logiciel maison pilotant chaque étape, plus de 50 points de contrôle qualité, et plus de 80 tests fonctionnels par unité avant validation. Les robots subissent des cycles intensifs de squats, de jogging et de mouvements répétés pour simuler les conditions réelles dès la sortie de ligne. Les résultats sont saisissants : un rendement supérieur à 80 % dès la première sortie, un taux de réussite de 99,3 % sur les batteries, et plus de 9 000 actionneurs déjà produits. Cette accélération industrielle dépasse la simple performance logistique. Chaque robot déployé devient un capteur de données qui alimente Helix, le système d'intelligence artificielle maison de Figure AI. Plus la flotte s'agrandit, plus l'IA apprend vite, et plus les robots gagnent en autonomie réelle. Les nouvelles capacités s'appuient sur une approche dite de contrôle corporel complet guidé par la perception : équipés de caméras embarquées, les robots reconstruisent une vision 3D de leur environnement et anticipent leurs mouvements, que ce soit pour monter des escaliers, traverser des surfaces irrégulières ou s'adapter à des situations imprévues sans assistance humaine. Figure AI a également développé une infrastructure de gestion de flotte incluant diagnostic en temps réel, maintenance à distance et mises à jour simultanées sur l'ensemble des unités déployées. Figure AI s'inscrit dans une course industrielle qui oppose désormais plusieurs géants et startups bien financées sur un même terrain : la capacité à produire des humanoïdes en série et à les rendre opérationnels à grande échelle. Tesla, avec son robot Optimus, et Boston Dynamics font figure de concurrents directs, mais la vraie bataille se joue aujourd'hui sur les données réelles accumulées en déploiement. Celui qui dispose de la plus grande flotte apprenante accumule un avantage compétitif difficile à rattraper. Figure AI, soutenue par des investisseurs majeurs de la Silicon Valley et des partenariats industriels actifs notamment avec BMW, mise sur cette logique de flywheel : plus de robots, plus de données, de meilleures décisions, encore plus de robots. La question qui reste ouverte est celle de la vitesse à laquelle ces humanoïdes vont effectivement remplacer de la main-d'oeuvre dans des environnements industriels réels, une perspective qui fascine autant qu'elle inquiète.

UELe partenariat actif de Figure AI avec BMW expose directement le tissu industriel européen à la robotique humanoïde en série, avec des implications concrètes sur l'emploi dans les usines du continent.

RobotiqueOpinion
1 source
La Chine prévoit 8 500 robots IA pour son réseau électrique, avec un investissement d'un milliard de dollars
46Interesting Engineering 

La Chine prévoit 8 500 robots IA pour son réseau électrique, avec un investissement d'un milliard de dollars

La State Grid Corporation of China, le plus grand opérateur électrique du monde, va déployer environ 8 500 robots dopés à l'intelligence artificielle sur son réseau en 2026, avec un budget de 6,8 milliards de yuans, soit près d'un milliard de dollars. Ces machines couvriront plus de 600 tâches spécialisées : quelque 5 000 chiens-robots quadrupèdes assureront la surveillance et l'inspection des lignes dans les zones montagneuses difficiles d'accès, 500 robots humanoïdes interviendront sur les infrastructures à très haute tension en conditions de travail sous tension, et 3 000 robots à bras doubles sur roues effectueront des opérations de maintenance coordonnée. Les fournisseurs retenus sont parmi les fleurons de la robotique chinoise : Unitree Robotics, Deep Robotics, AgiBot, UBTech Robotics et Fourier Intelligence. En comptant les investissements de China Southern Power Grid et des autres acteurs du secteur, les dépenses totales en robots embarqués devraient dépasser 10 milliards de yuans (1,46 milliard de dollars) pour la seule année 2026. L'enjeu est considérable : automatiser la gestion d'un réseau électrique qui dessert 26 des 31 provinces continentales chinoises, dans des environnements souvent hostiles ou dangereux pour les techniciens humains. En janvier 2026, des chercheurs chinois avaient déjà ramené le temps de réponse aux défaillances de réseau à 0,1 seconde, permettant une isolation et une restauration quasi instantanées des pannes, y compris la détection de micro-défauts de courant à l'échelle de la centaine de milliampères. Confier l'inspection et la maintenance quotidiennes à des robots réduit les risques humains, améliore la continuité de service et libère les techniciens pour des interventions à plus haute valeur ajoutée. Pour les utilisateurs industriels et les ménages, l'objectif est une grille électrique plus fiable et plus résiliente face aux aléas. Ce virage robotique s'inscrit dans une stratégie industrielle plus large. La Chine domine déjà les expéditions mondiales de robots incarnés et vise 2,1 millions d'unités produites d'ici 2030. Le réseau électrique sert ici de laboratoire grandeur nature pour valider des systèmes d'IA en conditions réelles à très grande échelle. China Southern Power Grid a même commencé à exporter ses propres chiens-robots pour l'inspection de sous-stations au Chili, signe que la filière lorgne désormais les marchés internationaux. À mesure que l'autonomie des systèmes augmentera, le secteur énergétique chinois pourrait devenir la référence mondiale pour l'intégration massive de l'IA dans des infrastructures critiques.

UELa montée en puissance de la filière robotique chinoise, déjà exportatrice (Chili) et visant 2,1 millions d'unités d'ici 2030, accroît la pression concurrentielle sur les industriels et opérateurs d'infrastructures critiques européens qui devront choisir entre adoption et développement de capacités propres.

RobotiqueActu
1 source
Genie Sim 3.0 : une plateforme de simulation haute fidélité pour robots humanoïdes
47arXiv cs.RO 

Genie Sim 3.0 : une plateforme de simulation haute fidélité pour robots humanoïdes

AgibotTech a publié Genie Sim 3.0, une plateforme de simulation unifiée destinée à l'apprentissage de la manipulation robotique. Son composant central, le Genie Sim Generator, utilise un grand modèle de langage (LLM) pour construire automatiquement des environnements 3D haute fidélité à partir de simples instructions en langage naturel. La plateforme intègre également le premier benchmark de robotique dont l'évaluation est entièrement automatisée par LLM : il génère en masse des scénarios de test, puis s'appuie sur un modèle vision-langage (VLM) pour noter les performances des robots sans intervention humaine. AgibotTech publie simultanément un jeu de données open source de plus de 10 000 heures de données synthétiques couvrant plus de 200 tâches distinctes, accessible sur GitHub. L'enjeu central est le fossé entre simulation et monde réel, le fameux problème du "sim-to-real transfer", qui freine depuis des années le déploiement à grande échelle des robots apprenants. Collecter des données dans le monde physique coûte extrêmement cher et se heurte à des contraintes de passage à l'échelle quasi insurmontables. Genie Sim 3.0 démontre expérimentalement que ses données synthétiques permettent un transfert "zéro-shot" vers le monde réel, c'est-à-dire que des politiques de contrôle entraînées uniquement en simulation fonctionnent directement sur des robots physiques, sans phase d'adaptation supplémentaire. Pour les laboratoires de robotique et les startups du secteur, cela ouvre la possibilité de produire des volumes de données d'entraînement plusieurs ordres de grandeur supérieurs à ce qu'autorise la réalité physique, à une fraction du coût. Cette publication s'inscrit dans une course mondiale à la robotique humanoïde impliquant des acteurs comme Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus. L'un des goulots d'étranglement communs à tous est précisément la rareté des données d'entraînement de qualité et la fragmentation des benchmarks, chaque laboratoire travaillant dans son propre silo de simulation. En proposant une plateforme ouverte, un dataset massif et une procédure d'évaluation standardisée et automatisée, AgibotTech tente de poser une infrastructure commune au champ. La prochaine étape sera de vérifier si ce transfert zéro-shot tient dans des conditions moins contrôlées, avec des objets, des éclairages et des configurations inédits.

UELes laboratoires de robotique et startups européens peuvent accéder librement aux 10 000 heures de données synthétiques sur GitHub pour accélérer leurs recherches sur le transfert sim-to-réel, sans avoir à produire ces données coûteusement en conditions réelles.

💬 Le fossé sim-to-real, c'est le mur sur lequel tous les labos de robotique se cognent depuis des années. Que des données purement synthétiques suffisent à piloter du vrai métal sans phase d'adaptation, c'est la promesse qu'on attendait vraiment. Reste à voir si ça tient avec des objets imprévus, un mauvais éclairage, le vrai bazar du monde réel.

RobotiqueActu
1 source
Capteurs tactiles et de proximité comme a priori d'observation pour l'évitement de collisions des humanoïdes
48arXiv cs.RO 

Capteurs tactiles et de proximité comme a priori d'observation pour l'évitement de collisions des humanoïdes

Des chercheurs ont présenté un cadre d'apprentissage par renforcement pour permettre à un robot humanoïde H1-2 d'éviter les collisions avec l'ensemble de son corps, en s'appuyant uniquement sur des capteurs tactiles et de proximité répartis sur sa partie supérieure. Pour évaluer le système, l'équipe a utilisé le dodgeball comme tâche de référence : le robot doit esquiver des balles lancées dans sa direction, sans recourir à des caméras externes. Les chercheurs ont ensuite fait varier systématiquement les propriétés des capteurs, notamment leur couverture spatiale, leur type et leur portée, afin de comprendre comment chacun de ces paramètres influence le comportement d'évitement appris. Les résultats bousculent certaines intuitions du domaine. Contrairement à ce qu'on pourrait supposer, des mesures de proximité brutes, sans localisation explicite des objets, suffisent à produire un comportement d'évitement efficace, à condition que la portée des capteurs soit suffisante. Plus surprenant encore, des signaux de proximité clairsemés et non directionnels surpassent des alternatives plus denses et directionnelles en termes d'efficacité d'apprentissage : le robot apprend plus vite avec moins d'information, pour peu que celle-ci couvre bien l'espace autour de lui. Ces conclusions ont des implications directes pour la conception matérielle des robots humanoïdes, en suggérant qu'un équipement sensoriel plus simple peut suffire là où l'on cherchait à maximiser la précision. L'enjeu derrière ces travaux est la sécurité des robots en environnement non contrôlé. Les caméras externes souffrent d'occlusions fréquentes dès que le robot interagit avec son environnement ou d'autres personnes, ce qui rend les capteurs embarqués sur le corps particulièrement précieux. Le H1-2 est l'un des robots humanoïdes commerciaux les plus accessibles du marché, ce qui donne à cette recherche une portée concrète au-delà du laboratoire. Alors que les déploiements industriels et domestiques de robots humanoïdes s'accélèrent, comprendre comment minimiser le risque de collision tout en réduisant la complexité sensorielle est une question centrale pour rendre ces machines réellement utilisables au quotidien.

RobotiqueActu
1 source
MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes
49arXiv cs.RO 

MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes

Des chercheurs ont présenté MotionBricks, un nouveau cadre de génération de mouvements en temps réel capable de modéliser plus de 350 000 clips d'animation avec un seul modèle unifié. Publié sur arXiv, le système repose sur deux composants centraux : un backbone génératif modulaire à espace latent, conçu pour fonctionner sous contraintes de calcul sévères, et des "smart primitives", une interface unifiée permettant de contrôler navigation et interactions avec les objets. Les performances annoncées sont remarquables : 15 000 images par seconde à une latence de 2 millisecondes, sur des jeux de données open source et propriétaires de tailles variées. Le système a également été déployé sur le robot humanoïde Unitree G1, démontrant son applicabilité au contrôle robotique en temps réel. L'enjeu principal de MotionBricks est de combler le fossé persistant entre la recherche en synthèse de mouvement et les contraintes de production industrielle. Jusqu'ici, les méthodes génératives modernes, pourtant puissantes, se dégradaient fortement dès qu'elles devaient opérer en temps réel avec un large répertoire de compétences de mouvement. MotionBricks résout ce problème en permettant à des applications de se construire en mode "plug-and-play", comme assembler des briques, sans nécessiter de connaissances expertes en animation. Le contrôle multimodal fin, commandes de vitesse, sélection de style, keyframes précis, que les modèles existants pilotés par texte ou tags ne pouvaient pas offrir, devient ici accessible de manière intuitive. La synthèse de mouvements procédurale et les arbres d'animation traditionnels dominent encore les moteurs de jeux et la production 3D temps réel, faute d'alternatives génératives assez rapides et flexibles. Des projets comme Motion Diffusion Model ou MDM ont démontré la qualité des approches diffusion, mais butaient précisément sur les contraintes de latence. MotionBricks s'inscrit dans un courant plus large visant à rendre les modèles génératifs opérationnels en production, avec des implications directes pour l'industrie du jeu vidéo, les studios d'animation et la robotique humanoïde, un secteur en pleine accélération avec des acteurs comme Boston Dynamics, Figure AI ou Unitree.

UELes studios d'animation et développeurs de jeux vidéo européens pourraient à terme bénéficier de cette technologie pour produire des personnages animés en temps réel sans expertise spécialisée en animation.

RecherchePaper
1 source
Des robots humanoïdes commencent à trier les bagages dans un aéroport de Tokyo face à la pénurie de main-d'œuvre
50Ars Technica AI 

Des robots humanoïdes commencent à trier les bagages dans un aéroport de Tokyo face à la pénurie de main-d'œuvre

Japan Airlines lance en mai 2026 une expérimentation de robots humanoïdes à l'aéroport international de Haneda, à Tokyo. Ces machines seront déployées pour trier les bagages et charger le fret, avec l'ambition d'élargir progressivement leurs missions au nettoyage des cabines d'avion et à la manipulation d'équipements au sol comme les chariots à bagages. Les essais sont prévus jusqu'en 2028, ce qui signifie que les passagers en transit à Haneda pourront vraisemblablement croiser ces robots en action sur le tarmac ou dans les zones de traitement des bagages au cours des deux prochaines années. Cette initiative répond à une pression concrète sur le marché du travail japonais : la fréquentation des aéroports a fortement progressé ces dernières années, creusant un écart entre les besoins en personnel et les candidats disponibles. Pour Japan Airlines, automatiser des tâches physiques répétitives et pénibles comme la manutention des bagages permettrait de compenser ce déficit sans dépendre de recrutements difficiles à réaliser. Si les essais s'avèrent concluants, ce modèle pourrait s'étendre à d'autres compagnies ou aéroports confrontés aux mêmes contraintes démographiques, notamment dans un Japon où le vieillissement de la population aggrave les tensions sur l'emploi manuel. Les robots humanoïdes franchissent ainsi une nouvelle étape après leurs premiers déploiements dans les usines automobiles et les entrepôts logistiques, environnements relativement contrôlés où les tâches sont prévisibles. Un aéroport représente un défi autrement plus complexe : espaces ouverts, flux irréguliers, interactions avec des humains, objets de formes variées. La grande majorité des automatisations industrielles reposent encore sur des bras robotisés spécialisés, conçus pour répéter indéfiniment un geste identique. Les robots humanoïdes, eux, doivent s'adapter en temps réel à des situations changeantes, ce qui met à l'épreuve les dernières générations de logiciels de perception et de contrôle moteur. L'expérience de Haneda servira de test grandeur nature pour mesurer si la technologie actuelle est réellement à la hauteur de ces environnements imprévisibles.

UELes aéroports européens confrontés à des tensions similaires sur le marché du travail pourraient s'appuyer sur les résultats de cette expérimentation pour évaluer la maturité des robots humanoïdes dans leurs propres opérations de piste et de bagagerie.

RobotiqueOpinion
1 source

Suivre Robots humanoïdes en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour