Aller au contenu principal

Robots humanoïdes· sujet

455 articlesmis à jour le 6 mai 2026

L'industrie des robots humanoïdes : Unitree, Fauna Robotics, Tesla Optimus, Chery, Sony, défis techniques et premiers déploiements en entreprise.

Hub d'actualité sur Robots humanoïdes, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Les robots humanoïdes sont passés en 2026 du laboratoire à l'usine. Boston Dynamics Atlas exécute des séquences complexes (« mieux que certains gymnastes » selon le mot d'avril 2026), un robot NVIDIA tient un poste de 8 heures en usine Siemens à 60 bacs par heure, Unitree R1 est commercialisé sur AliExpress à 5 900 dollars. La courbe d'adoption industrielle s'accélère.

Trois fronts émergent. Le front industriel : déploiements ciblés sur des tâches répétitives (logistique, palettisation, inspection) où le ROI est démontrable. Le front grand public : Unitree à 5 900 $ rend l'humanoïde abordable, mais l'usage reste exploratoire. Le front géopolitique : la Chine annonce 8 500 robots IA pour son réseau électrique, démontrant une capacité d'industrialisation hors USA.

Côté écosystème logiciel, la bataille des plateformes humanoïdes se structure rapidement. NVIDIA pousse Isaac + Project GR00T (le « modèle de fondation pour humanoïdes »). Meta annonce vouloir devenir « l'Android des humanoïdes » avec une stack logicielle open. Google travaille avec Boston Dynamics depuis l'acquisition de 2013. Tesla joue le vertical intégré. Apple n'est pas annoncé sur ce segment mais ses brevets en motricité robotique se sont multipliés en 2025-2026. Le résultat : pas de standard unique, fragmentation forte, opportunité importante pour la couche logicielle qui s'imposera.

Pourquoi Robots humanoïdes compte

Les humanoïdes comptent parce qu'ils représentent l'extension physique de l'IA agentique. Le même argumentaire qui structure les agents logiciels (autonomie, capacité, sécurité) s'applique au monde physique avec des enjeux nouveaux : intégrité physique des humains autour, responsabilité juridique en cas d'incident, pression sur l'emploi industriel.

L'angle stratégique : Meta cherche à devenir « l'Android des robots humanoïdes », fournissant la couche logicielle commune que les fabricants matériels (Unitree, Figure, Boston Dynamics) intègrent. Si la stratégie réussit, on assiste à une convergence entre la guerre des plateformes IA et la guerre des plateformes hardware — où Apple (vertical), Google (horizontal), Meta (open + agentique), NVIDIA (compute), Amazon (logistique) jouent chacun leur carte.

L'autre angle souvent sous-estimé : la dimension emploi. La Chine annonce 8 500 robots IA pour son réseau électrique. Si la même cadence se reproduit aux US et en Europe, les premières filières concernées (logistique, palettisation, inspection légère) verront le remplacement humain accélérer dès 2027-2028. La régulation européenne (AI Act, transposition nationale) commence à intégrer cette dimension dans le débat — pas encore avec des règles dures, mais avec des obligations de transparence + impact assessments. Les syndicats français (CGT logistique, CFDT industrie) ont commencé à demander des observatoires sectoriels en avril 2026.

Chronologie

  1. 2013Google rachète Boston Dynamics — premier signal du marché humanoïde grand public
  2. 2024Tesla Optimus, Figure 02, Boston Dynamics Atlas refonte électrique : démarrage de la course commerciale
  3. Janv 2025Tesla démontre Optimus en démo grand public à CES
  4. Mar 2025Unitree H1 démontre une marche grand public
  5. Sept 2025Figure annonce des pilotes BMW + Mercedes en chaîne d'assemblage
  6. Févr 2026NVIDIA présente Project GR00T (modèle de fondation humanoïde) au GTC
  7. Avr 2026Unitree R1 commercialisé sur AliExpress à 5 900 $ (premier humanoïde grand public abordable)
  8. Avr 2026Robot humanoïde NVIDIA tient un poste 8h en usine Siemens à 60 bacs/heure
  9. 29 avr 2026La Chine prévoit 8 500 robots IA pour son réseau électrique (investissement milliardaire)
  10. Avr 2026Premiers observatoires syndicaux français (CGT, CFDT) sur l'impact emploi des humanoïdes industriels
  11. 4 mai 2026Meta veut devenir l'Android des robots humanoïdes (positionnement plateforme logicielle)
  12. 5 mai 2026Top Robots Avril 2026 : usine, sport, salon — l'IA prend le contrôle
  13. 6 mai 2026Vidéo : Atlas (Boston Dynamics) bouge mieux que certains gymnastes

Cinq articles essentiels

Sélection éditoriale. Ces cinq pièces couvrent les angles les plus utiles pour comprendre Robots humanoïdes en 2026.

  1. Atlas (Boston Dynamics) bouge mieux que certains gymnastes : la démonstration que la maturité physique n'est plus le verrou.

  2. Robot humanoïde NVIDIA tient un poste 8h en usine Siemens à 60 bacs/heure : le ROI industriel démontré.

  3. Unitree R1 sur AliExpress à 5 900 $ : le moment où l'humanoïde devient grand public.

  4. Meta veut devenir l'Android des robots humanoïdes : la guerre des plateformes logicielles s'étend au matériel.

  5. La Chine prévoit 8 500 robots IA pour son réseau électrique : la dimension géopolitique de l'industrialisation.

  6. Top Robots Avril 2026 : la photographie complète de la course humanoïde au moment où elle bascule du laboratoire à l'usine.

Questions fréquentes

Quels sont les principaux fabricants de robots humanoïdes en 2026 ?

Tesla (Optimus), Figure, Boston Dynamics (Atlas), Unitree (H1, R1), Apptronik (Apollo), Fauna Robotics, 1X (Eve), Agility Robotics (Digit), Sony (annoncé). La Chine pousse Unitree, UBTech, Fourier Intelligence. Le japonais Sony et le sud-coréen Samsung préparent des entrées en 2026.

Combien coûte un robot humanoïde en 2026 ?

Du grand public au pro : Unitree R1 à 5 900 $ sur AliExpress (entrée de gamme). Tesla Optimus à ~30 000 $ promesse, déploiement progressif. Figure 02 et Boston Dynamics Atlas en B2B (~100-200 000 $). Les usages professionnels (logistique, inspection) sont les premiers à déployer en volume.

Quels sont les déploiements industriels concrets ?

NVIDIA en Siemens (palettisation, 60 bacs/heure, postes 8h). Amazon en logistique (Digit chez Agility). BMW et Mercedes pilote Figure. La Chine annonce 8 500 robots pour son réseau électrique. La courbe est ~10x volumétrique chaque année depuis 2024.

Qui fournit l'IA des humanoïdes ?

Stratégies divergentes : NVIDIA fournit le hardware + une couche logicielle (Isaac, Project GR00T). Meta vise « l'Android humanoïde » (open). Google travaille avec Boston Dynamics. Tesla utilise du propriétaire. Les startups (Figure, Apptronik) bâtissent souvent leur propre stack. La fragmentation est forte.

Quel est l'impact emploi attendu ?

Court terme (2026-2027) : impact marginal — quelques milliers de robots déployés mondialement, dans des contextes industriels où la pénurie de main-d'œuvre est déjà aiguë (logistique, manufacturing). Moyen terme (2028-2030) : pression réelle sur les emplois physiques répétitifs et bas qualifiés. Long terme : dépend de la vitesse de chute des coûts. Les prévisions sérieuses s'accordent sur un déploiement en millions d'unités d'ici 2032-2035 dans les pays riches.

Quels acteurs européens sur les humanoïdes ?

Marginal sur le matériel — pas d'équivalent européen de Tesla Optimus / Figure / Unitree. Plus présent côté composants : capteurs (Sony France, Aebi-Schmidt, ABB), motorisation (Schneider Electric, Bosch), batteries (Verkor, ACC). Côté logiciel : Mistral et Aleph Alpha pourraient fournir la couche IA cognitive, mais ne se positionnent pas frontalement sur l'humanoïde. La voie probable : intégrateurs européens spécialisés (Siemens, Schneider) plutôt que constructeurs end-to-end.

Toute l'actualité Robots humanoïdes

Flux automatique. Articles classés par pertinence, agrégés en continu.

Hong Kong ouvre une supérette… entièrement gérée par un robot humanoïde
1Le Big Data RobotiqueActu

Hong Kong ouvre une supérette… entièrement gérée par un robot humanoïde

Hong Kong s'apprête à inaugurer son premier commerce de proximité entièrement piloté par un robot humanoïde baptisé « Xiao Gai ». Développé par une entreprise chinoise spécialisée dans l'intelligence artificielle incarnée, ce magasin automatisé de neuf mètres carrés ouvrira ses portes sur le front de mer de Hung Hom, dans un format capsule modulaire inspiré du concept « Galaxy Space Capsule » déjà exploité dans le district de Haidian, à Pékin. Xiao Gai fonctionnera vingt-quatre heures sur vingt-quatre, sept jours sur sept, capable d'accueillir les clients, de les guider dans leurs achats et de converser dans plusieurs langues pour servir aussi bien les résidents que les touristes. Les rayons proposeront des snacks, des articles de collection et certains médicaments en vente libre. Le projet a été annoncé publiquement par le secrétaire aux Finances de Hong Kong, Paul Chan, dans son blog hebdomadaire, signal clair d'un soutien institutionnel. Il s'agit de la première implantation de cette entreprise en dehors de la Chine continentale. L'impact potentiel de ce déploiement est loin d'être anecdotique. Selon la société elle-même, l'installation de ces capsules robotisées génère une hausse de fréquentation comprise entre 30 % et 40 % pour les zones commerciales environnantes, un argument de poids pour les promoteurs immobiliers et les collectivités cherchant à revitaliser des espaces urbains. Le précédent pékinois est éloquent : le point de vente de Haidian aurait attiré près de 1 000 clients par jour depuis son ouverture début août. Pour les villes qui les accueillent, ces capsules fonctionnent autant comme vitrine technologique que comme commerce de proximité, renforçant leur image de modernité auprès des investisseurs et des visiteurs internationaux. Cette ouverture à Hong Kong s'inscrit dans une dynamique d'expansion rapide des robots humanoïdes dans les espaces commerciaux, portée par les progrès récents en traitement du langage naturel et en robotique embarquée. La Chine a pris une avance notable dans ce domaine, multipliant les expérimentations de robots en situation réelle dans la distribution, la restauration et les services aux particuliers. Hong Kong, carrefour entre Chine continentale et marchés internationaux, représente une vitrine stratégique pour valider ce modèle à l'export. L'entreprise ne cache d'ailleurs pas ses ambitions : elle prévoit de déployer cent capsules similaires dans dix villes au cours des prochains mois. La question qui se pose désormais concerne moins la faisabilité technique que l'acceptation sociale et les conséquences sur l'emploi dans un secteur de la distribution déjà sous pression.

1 source
NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe
2FrenchWeb 

NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe

Neura Robotics, startup allemande spécialisée dans la robotique humanoïde, vient d'annoncer une levée de fonds de 1,4 milliard de dollars, soit environ 1,2 milliard d'euros, portant sa valorisation à près de 6 milliards d'euros. L'opération regroupe un consortium d'investisseurs aussi large qu'inédit : Amazon, NVIDIA et Qualcomm côté tech, Bosch et Schaeffler côté industrie allemande, la Banque européenne d'investissement comme acteur public, auxquels s'ajoutent plusieurs fonds financiers internationaux. Il s'agit du plus grand tour de financement jamais réalisé pour une entreprise européenne de robotique. Ce signal dépasse la simple performance financière. La présence simultanée de géants technologiques américains, de champions industriels allemands et d'une institution publique européenne traduit une convergence rare : le robot humanoïde n'est plus un projet de laboratoire, il devient une infrastructure industrielle crédible. Pour Amazon, qui déploie déjà des robots dans ses entrepôts, l'enjeu est d'intégrer des machines capables de remplacer la main humaine dans les tâches non automatisées. Pour NVIDIA et Qualcomm, c'est un débouché majeur pour leurs puces d'IA embarquée. Fondée par David Reger, Neura Robotics s'inscrit dans une course mondiale qui oppose désormais les Américains Figure AI, Agility Robotics et Boston Dynamics aux acteurs chinois en pleine montée en puissance. L'Europe, longtemps absente de ce segment, tente d'y placer un champion. Ce financement donne à Neura les moyens d'accélérer la production et de conquérir des clients industriels avant que la fenêtre de leadership ne se referme.

UEUne startup allemande lève 1,2 milliard d'euros avec le soutien de la Banque européenne d'investissement et des industriels allemands Bosch et Schaeffler, positionnant l'Europe comme acteur crédible dans la course mondiale aux robots humanoïdes industriels.

RobotiqueOpinion
1 source
Tye Brady (Amazon) : les robots du futur « se fondront dans le décor »
3La Tribune 

Tye Brady (Amazon) : les robots du futur « se fondront dans le décor »

Tye Brady, directeur technologique d'Amazon Robotics, a dévoilé les grandes ambitions d'Amazon en matière d'automatisation lors d'une récente intervention publique. L'entreprise opère déjà une flotte de plus d'un million de robots dans ses centres logistiques à travers le monde, et a annoncé un investissement de 10 milliards d'euros pour moderniser ses entrepôts européens dans les années à venir. L'objectif affiché : élargir considérablement le champ d'action de ces machines, notamment en les dotant d'une capacité de compréhension du langage naturel. Cette évolution représente un saut qualitatif majeur pour l'industrie logistique. Des robots capables de comprendre des instructions en langage courant, et non plus seulement des commandes codées, pourraient opérer de manière bien plus autonome et flexible aux côtés des travailleurs humains. Pour Amazon, cela signifie une réduction des coûts opérationnels à grande échelle, mais aussi une pression accrue sur l'emploi dans des secteurs déjà fragilisés par l'automatisation. Brady résume la vision par une formule : les robots du futur « se fondront dans le décor », discrets et omniprésents à la fois. Amazon n'est pas seul sur ce terrain : des acteurs comme Boston Dynamics, Figure ou Agility Robotics développent des robots humanoïdes visant les mêmes environnements industriels. L'intégration du traitement du langage naturel dans la robotique, rendue possible par les avancées des grands modèles de langage, est devenue l'enjeu central de la prochaine génération de systèmes automatisés. L'investissement européen d'Amazon s'inscrit dans ce contexte de course technologique, avec des implications réglementaires et sociales que Bruxelles commencera sans doute à encadrer plus fermement.

UEAmazon investit 10 milliards d'euros dans la modernisation de ses entrepôts européens, avec des implications directes sur l'emploi dans la logistique en France et des pressions réglementaires croissantes pour Bruxelles.

💬 Un million de robots déjà en prod, et là ils annoncent qu'ils veulent qu'ils comprennent le langage naturel, comme si c'était juste le prochain patch. C'est la bascule qui rend le reste sérieux : des robots qui s'adaptent aux instructions humaines au lieu de forcer les humains à s'adapter aux robots. Les 10 milliards en Europe, c'est pas de la com, c'est la mise de départ d'une course où Bruxelles va très vite devoir choisir entre réguler et regarder.

RobotiqueOpinion
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
4arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

RobotiqueOpinion
1 source
OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes
5arXiv cs.RO 

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes

Une équipe de chercheurs a déposé le 10 juin 2026 sur arXiv (ref. 2606.10340) un système baptisé OMG, Omni-Modal Motion Generation, conçu pour le contrôle whole-body généraliste des robots humanoïdes. L'architecture adopte une structure hiérarchique inspirée du système moteur biologique : un module supérieur de génération de mouvement basé sur la diffusion joue le rôle de "cerveau" planificateur, tandis qu'un contrôleur de suivi réactif bas niveau fait office de "cervelet". Ce cerveau est conditionnable simultanément sur du langage naturel, des signaux audio et des mouvements de référence humains. Le système s'appuie sur un pipeline de curation, filtrage et labellisation de données conçu pour couvrir un large spectre de comportements whole-body. Les auteurs revendiquent des performances state-of-the-art sur les benchmarks de contrôle humanoïde généraliste, ainsi qu'un comportement de scaling en fonction de la taille du modèle, deux propriétés clés pour qui veut construire un foundation model robotique. L'intérêt de OMG tient à son traitement simultané de deux limitations structurelles du domaine : d'un côté, les politiques spécialisées actuelles exigent un reward engineering intensif et ne généralisent pas au-delà de quelques skills ; de l'autre, les motion trackers existants peinent à intégrer de nouvelles modalités d'entrée sans refonte architecturale. En conditionnant un unique modèle sur des entrées multimodales extensibles, le papier prolonge la logique des VLA (Vision-Language-Action models) vers la génération de mouvement full-body. Si les résultats survivent à l'évaluation externe, cela plaiderait pour qu'un seul modèle généraliste remplace plusieurs politiques spécialisées par déploiement, un argument commercial direct pour les intégrateurs. Point de vigilance : il s'agit d'un preprint non évalué par les pairs, sans données de déploiement physique publiées à ce stade. Le papier s'inscrit dans une course active autour du contrôle humanoïde généraliste. Physical Intelligence a publié Pi-0 et Pi-0.5 autour d'architectures diffusion-based, NVIDIA a présenté GR00T N2 comme backbone transformer pour whole-body control, et Figure déploie Helix sur ses plateformes H1/H2 dans des environnements d'entrepôt. L'abstract ne mentionne ni institution d'origine ni robot physique cible, ce qui rend la comparaison directe avec ces systèmes impossible à ce stade. Les prochaines étapes naturelles seraient une soumission à CoRL ou RSS 2026 et une validation sur hardware réel, deux éléments absents de la publication actuelle.

RobotiqueOpinion
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
6arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

RechercheOpinion
1 source
AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel
7arXiv cs.RO 

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

Des chercheurs ont publié sur arXiv (réf. 2606.10927) AllDayNav, un système de navigation robotique lifelong capable d'évoluer indéfiniment dans des environnements dynamiques sans carte explicite. Son architecture combine un grand modèle d'un milliard de paramètres, entraîné par apprentissage par renforcement directement en conditions réelles, et une mémoire multimodale auto-évolutive qui agrège images-clés visuelles, descriptions sémantiques et contexte temporel. Ce mécanisme permet au robot de générer automatiquement des instructions en vocabulaire ouvert, des objectifs visuels et des récompenses structurées, sans annotation humaine à chaque nouvelle tâche. Évalué sur des scénarios de navigation inter-pièces, inter-épisodes et inter-tâches, AllDayNav atteint des taux de succès proches de 100 % et surpasse des baselines de type SLAM, VLM et RL classique en efficacité de trajectoire et en robustesse, aussi bien en simulation qu'en environnement physique. Ce travail remet en question une hypothèse structurante du domaine : la navigation autonome fiable nécessiterait une représentation spatiale explicite de l'environnement (cartes métriques, graphes de scènes). AllDayNav montre qu'un modèle suffisamment large, affiné en continu par RL avec une mémoire implicite, peut dépasser ces approches y compris hors contextes contrôlés. Pour les intégrateurs de robots mobiles (AMR en logistique, robots de service en espaces publics), cela préfigure des systèmes adaptables aux modifications d'environnement sans reconfiguration manuelle. La prudence reste de mise : les chiffres de "100 % de succès" proviennent d'un preprint non encore évalué par les pairs, sans détail complet sur les conditions exactes d'évaluation ni sur la variabilité entre scènes. AllDayNav s'inscrit dans une tendance de fond visant à remplacer les pipelines modulaires perception-cartographie-planification par des modèles de fondation entraînés de bout en bout. Google DeepMind (travaux NavIRL, SayCan), CMU et Berkeley explorent des directions similaires pour la navigation mobile généraliste, tandis que des acteurs comme Boston Dynamics et ANYbotics continuent de s'appuyer sur des approches hybrides métriques. Soumis le 10 juin 2026, ce papier reste une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

UEImpact indirect pour les intégrateurs européens d'AMR logistique : si les résultats se confirment après peer review, cette approche pourrait réduire les coûts de reconfiguration dans des entrepôts et espaces publics dynamiques.

RobotiquePaper
1 source
Q8botOne : ce robot de la taille d’une paume n’a aucun fil (et c’est une prouesse !)
8Le Big Data 

Q8botOne : ce robot de la taille d’une paume n’a aucun fil (et c’est une prouesse !)

Eric Wu, ingénieur et créateur du projet open source Q8bot, vient de dévoiler le Q8botOne, un robot quadrupède de la taille d'une paume de main capable de marcher, trotter et sauter. Le lancement commercial est prévu prochainement via une campagne de financement participatif. Contrairement aux kits robotiques habituels qui nécessitent des heures d'assemblage, le Q8botOne sera livré entièrement monté et opérationnel dès la sortie de la boîte. Sous son capot minimaliste, il embarque huit actionneurs intelligents DYNAMIXEL XL, un microcontrôleur ESP32-C3-MINI-N4 pour le traitement embarqué, des pattes à liaisons parallèles fabriquées par impression 3D Multi Jet Fusion avec des articulations à billes de précision, et une batterie lithium-ion rechargeable avec système de protection intégré. L'électronique est consolidée sur une carte de circuit imprimé centrale, ce qui élimine tout câblage interne complexe, une décision de conception qui réduit les pannes, allège la structure et facilite la maintenance. Pour la communauté robotique, le Q8botOne représente un point d'entrée rare : un robot à dynamique avancée (sauts inclus) accessible à des chercheurs, étudiants et makers sans budget institutionnel. La plateforme est entièrement open source, fidèle à l'esprit du projet original. Chaque unité est livrée avec une télécommande sans fil personnalisée dotée d'un joystick, de boutons physiques et d'un port USB-C pour la connexion PC, ce qui abaisse significativement la barrière à l'entrée pour les débutants. Pour les profils avancés, un connecteur Qwiic permet d'ajouter des capteurs SparkFun ou Adafruit sans câblage, et une interface UART accepte des coprocesseurs comme le Raspberry Pi, ouvrant la voie à des applications de vision par ordinateur, de navigation autonome ou d'intelligence artificielle embarquée. Le Q8botOne s'inscrit dans une tendance de fond : la miniaturisation et la démocratisation des robots à pattes, longtemps cantonnés aux laboratoires de Boston Dynamics ou aux universités bien dotées. Des projets comme Spot de Boston Dynamics ou les quadrupèdes de Unitree ont prouvé l'intérêt industriel de ces architectures, mais leur coût reste prohibitif pour la plupart des équipes indépendantes. L'approche open source et crowdfunding d'Eric Wu vise précisément ce marché intermédiaire, chercheurs en herbe, écoles d'ingénieurs, hobbyistes sérieux. Le succès de la campagne de financement participatif dira si ce créneau est suffisamment porteur pour transformer un projet de maker en produit viable. Les implications vont au-delà du gadget : une plateforme abordable et extensible pourrait accélérer la recherche sur la locomotion autonome dans des environnements non structurés, un problème central de la robotique moderne.

RobotiqueActu
1 source
Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI
9AWS ML Blog 

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et Amazon Web Services ont publié un guide technique détaillant comment entraîner des politiques de comportement pour le robot humanoïde Unitree H1 en utilisant NVIDIA Isaac Lab sur Amazon SageMaker AI. La solution s'appuie sur deux options de calcul complémentaires : SageMaker HyperPod, une infrastructure distribuée managée pour des clusters persistants, et SageMaker Training Jobs, une approche entièrement à la demande où les instances GPU sont provisionnées à la volée puis supprimées à la fin du job. Le code complet est disponible publiquement sur GitHub. L'objectif est de permettre aux équipes robotique de lancer des entraînements par renforcement (RL) à grande échelle, aussi bien en phase d'expérimentation rapide qu'en production sur de longues durées, sans gérer eux-mêmes l'infrastructure de calcul. Cette publication répond à un défi concret : l'entraînement par renforcement pour des comportements complexes, comme la locomotion humanoïde sur terrain accidenté, est extrêmement gourmand en GPU. Un seul run d'entraînement peut durer de quelques heures à plusieurs jours. SageMaker HyperPod intègre un agent de surveillance de santé sur chaque nœud, capable de détecter automatiquement les pannes matérielles, de remplacer les instances défaillantes et de reprendre l'entraînement depuis le dernier checkpoint, sans intervention humaine. Le système publie en parallèle des centaines de métriques de cluster vers Amazon Managed Service for Prometheus, visualisables dans des dashboards Grafana préconfigurés, couvrant l'utilisation GPU, la mémoire, le débit réseau et les performances par tâche. Pour les expériences courtes, SageMaker Training Jobs élimine tout coût de calcul inactif entre les runs, chaque job ne consommant de ressources que le temps de son exécution. L'IA physique bascule progressivement de la recherche vers la production industrielle. Les robots sont désormais formés dans des simulations haute-fidélité accélérées par GPU avant leur déploiement en usine, en entrepôt ou dans des centres logistiques, parce que l'entraînement en conditions réelles reste lent, coûteux et risqué. Cette simulation compresse des mois d'apprentissage en quelques heures, mais déplace le problème vers la gestion du calcul distribué. C'est précisément le créneau que cherchent à occuper AWS et NVIDIA avec cette intégration : en abstraisant la couche infrastructure, ils permettent aux ingénieurs de se concentrer sur la conception des politiques de comportement robotique plutôt que sur la configuration des clusters. SageMaker HyperPod supporte l'orchestration via Amazon EKS ou Slurm, avec un système de quotas fins par instance, GPU entier ou partition MIG (NVIDIA Multi-Instance GPU), couvrant les accélérateurs, les vCPU et la mémoire. La prochaine étape logique sera l'extension de ces pipelines aux modèles de fondation robotique, qui nécessitent des infrastructures similaires mais à une échelle encore supérieure.

RobotiqueActu
1 source
NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
10Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

RobotiqueOpinion
1 source
MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel
11arXiv cs.RO 

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

Des chercheurs présentent MotionWAM (arXiv:2606.09215), un World Action Model (WAM) temps réel pour la loco-manipulation humanoïde, validé sur neuf tâches physiques avec un Unitree G1 piloté par une unique caméra égocentrique. Contrairement aux architectures dominantes qui séparent une politique pour les bras et un contrôleur pour la locomotion, le système prédit des tokens de mouvement corps-entier dans un espace d'action unifié couvrant locomotion, déplacements du torse, régulation de hauteur, interaction plantaire et manipulation des mains. Pour atteindre le temps réel, MotionWAM conditionne la politique sur les features intermédiaires de débruitage d'un modèle monde vidéo, évitant le débruitage itératif complet sur des latents haute dimension, goulot d'étranglement des WAMs antérieurs. Sur le hardware réel, le système dépasse de plus de 30 points les baselines Vision-Language-Action (VLA) entraînées sur les mêmes démonstrations et réalise des tâches d'interaction plantaire inatteignables par les politiques haut/bas-corps découplées. Le paradigme hiérarchique haut/bas-corps, présent dans des systèmes comme GR00T N2 (NVIDIA) et de nombreuses architectures humanoïdes commerciales, contraint les jambes à un simple rôle d'équilibre déconnecté de la manipulation. MotionWAM démontre sur matériel réel que cette contrainte n'est pas une fatalité et valide que des modèles monde pré-entraînés sur vidéo peuvent réduire la dépendance aux démonstrations robotiques coûteuses. Les métriques restent à contextualiser: neuf tâches sur un seul embodiment, sans publication de temps de cycle ni de robustesse aux variations de scène, restent loin d'une validation industrielle. Les WAMs appliqués à la robotique s'appuient sur des travaux antérieurs en manipulation tabletop (UniSim, Genie de Google DeepMind); MotionWAM étend ces techniques à la commande humanoïde corps-entier. Face aux approches VLA dominantes dans les publications de référence, notamment pi-0 (Physical Intelligence) et GR00T N2, cette architecture propose une alternative centrée sur la dynamique vidéo pré-entraînée. Les prochaines étapes naturelles concernent la validation multi-embodiment et des déploiements industriels semi-structurés, où la variabilité des environnements constituera le vrai test de maturité.

RobotiqueOpinion
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
12arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

RobotiquePaper
1 source
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
13arXiv cs.RO 

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme. L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire. Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

RobotiqueOpinion
1 source
Le guide du sceptique face aux robots humanoïdes qui font le buzz sur Internet
14Ars Technica AI 

Le guide du sceptique face aux robots humanoïdes qui font le buzz sur Internet

Les vidéos de robots humanoïdes se multiplient sur les réseaux sociaux, montrant des machines qui dansent, font de l'acrobatie ou accomplissent des tâches ménagères avec une aisance déconcertante. Ces démonstrations, soigneusement orchestrées par des startups et des géants technologiques, créent l'impression que les robots capables de tout faire sont sur le point d'envahir nos quotidiens. Jonathan Hurst, cofondateur d'Agility Robotics et chercheur en robotique à l'Université d'État de l'Oregon, tire la sonnette d'alarme sur ce phénomène viral. Le problème central est l'écart considérable qui subsiste entre ces performances en démonstration et la capacité réelle de ces machines à exécuter les mêmes tâches de manière fiable et répétée dans des environnements non contrôlés. Hurst pointe un mécanisme cognitif bien documenté : les humains ont naturellement tendance à anthropomorphiser tout objet à forme humanoïde. Voir un bras robotique danser paraît simplement impressionnant, mais voir un robot humanoïde effectuer le même mouvement pousse le cerveau à extrapoler, à tort, que cette machine possède l'ensemble des capacités d'un être humain dansant. "Les gens supposent automatiquement que le robot qui ressemble à une personne peut faire tout ce qu'une personne qui danse pourrait faire, ce qui n'est pas vrai", a-t-il déclaré. Cette confusion n'est pas totalement accidentelle. Selon Hurst, de nombreuses startups du secteur exploitent délibérément ce biais cognitif pour séduire les investisseurs et lever des fonds. L'industrie de la robotique humanoïde attire des milliards de dollars de capital-risque, portée par des acteurs comme Figure AI, 1X, Apptronik ou Boston Dynamics, chacun cherchant à convaincre que la percée commerciale est imminente. La réalité technique est plus nuancée : programmer un robot pour reproduire une chorégraphie dans un studio contrôlé est sans commune mesure avec lui faire gérer l'imprévisibilité d'un entrepôt ou d'une cuisine. Le grand public, et parfois les décideurs, peinent encore à faire cette distinction essentielle.

RobotiqueOpinion
1 source
Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes
15The Robot Report 

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise. Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle. Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

UELa montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

BusinessOpinion
1 source
Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix
16The Verge 

Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix

Amazon a présenté une nouvelle version de Proteus, son robot de manutention autonome déployé dans ses entrepôts, capable désormais de recevoir des instructions en langage naturel. Là où les opérateurs devaient auparavant passer par un logiciel spécialisé pour programmer les déplacements de l'engin, ils peuvent désormais lui communiquer des tâches verbalement, comme à un collègue. Le robot, au format bas et trapézoïdal conçu pour déplacer de lourds chariots à travers les allées logistiques, conserve le même châssis que le modèle original annoncé en 2022, la nouveauté est exclusivement logicielle, portée par une surcouche IA. L'enjeu est significatif pour les opérations à grande échelle : éliminer la friction de programmation réduit le temps de formation des opérateurs et permet une réaffectation dynamique des robots sans intervention IT. C'est aussi un signal clair sur la direction qu'Amazon prend dans la course à l'automatisation de ses 1 000+ centres de distribution aux États-Unis, où la pression syndicale et les coûts de main-d'oeuvre accélèrent les déploiements robotiques. Cela dit, l'annonce reste pour l'instant au stade de démonstration capacitaire : Amazon ne communique pas de chiffres de déploiement, de taux d'erreur ni de benchmarks de cycle time dans des conditions réelles. Proteus fait partie d'un portefeuille robotique Amazon qui inclut Sequoia (tri de petits colis), Sparrow (picking d'articles) et Cardinal (manutention de caisses). Sur le volet langage naturel appliqué aux robots industriels, Amazon rejoint une tendance portée par Boston Dynamics (Spot) et Intrinsic (filiale Alphabet), qui intègrent des interfaces LLM pour réduire la barrière à la programmation en atelier. Les prochaines étapes annoncées par Amazon restent vagues, sans timeline précise ni volume de déploiement confirmé.

UEAmazon opère des entrepôts en France et en Europe ; l'adoption à grande échelle d'interfaces LLM sur robots industriels pourrait accélérer la pression à l'automatisation dans la logistique EU et influencer les standards d'intégration des opérateurs locaux.

RobotiqueOpinion
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
17arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

RobotiqueOpinion
1 source
NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
18MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
19arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

RobotiquePaper
1 source
SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée
20arXiv cs.RO 

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

SplitAdapter est une architecture présentée sur arXiv (identifiant 2606.03297) visant à améliorer le contrôle de robots humanoïdes en loco-manipulation, soit la combinaison simultanée de la marche bipède et de la manipulation d'objets physiques. Le système part d'une politique de manipulation de boîtes préentraînée qu'il fige, puis lui greffe deux encodeurs de contexte indépendants : l'un capture les propriétés de la charge et de l'objet saisi, l'autre modélise les dynamiques internes du robot. Ces représentations sont injectées via une modulation FiLM hiérarchique (Feature-wise Linear Modulation), combinée à des objectifs split world-model et une régularisation cross-adversariale par gradient reversal (GRL). Les expériences couvrent des objets de 2, 4 et 6 kg, à des hauteurs de prise et de dépôt de 0, 30 et 60 cm, testés en sim-to-sim puis en déploiement sur robot réel. SplitAdapter améliore le taux de succès en tâche complète face à la politique de base et aux baselines FiLM à encodeur unique, avec les gains les plus marqués sous forte charge (6 kg). L'enjeu central est le transfert sim-to-réel sous charge variable : lorsqu'un humanoïde soulève un objet lourd, ses dynamiques changent sensiblement, et les adaptateurs existants qui fusionnent tous les signaux dans une seule représentation latente tendent à perdre en robustesse précisément dans les conditions les plus critiques. La factorisation proposée, un encodeur par source de variation, maintient une séparation explicite entre les incertitudes liées à l'objet et celles liées au robot, ce qui se révèle plus stable sous conditions extrêmes. Pour un intégrateur ou un OEM industriel, cela suggère qu'une politique généraliste préentraînée peut être adaptée modulairement selon la charge sans réentraînement complet, une propriété utile pour des lignes de production où les objets manipulés varient fréquemment. La loco-manipulation sur humanoïdes concentre des investissements massifs : Figure AI déploie son Figure 03 chez BMW, Boston Dynamics pousse Atlas en partenariat avec Hyundai, et des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) misent sur des politiques généralisables de type VLA (Vision-Language-Action). SplitAdapter prend un pari différent, adapter une politique spécialisée existante plutôt que d'en entraîner une nouvelle de bout en bout, ce qui réduit les coûts de calcul mais soulève la question de la généralisabilité hors distribution. Le papier est une préimpression arXiv soumise début juin 2026, non encore évaluée par les pairs ; aucun déploiement industriel ni pilote commercial n'est annoncé à ce stade.

RobotiquePaper
1 source
Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot
21arXiv cs.RO 

Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot

Une équipe de chercheurs présente Humanoid-GPT, un Transformer de style GPT avec attention causale, entraîné sur un corpus de 2 milliards de frames de capture de mouvement pour le contrôle du corps entier de robots humanoïdes. Publiée en juin 2026 sur arXiv (preprint, non encore évaluée par les pairs), l'étude décrit un pré-entraînement sur un corpus retargeté qui unifie l'ensemble des jeux de données mocap publics majeurs et des enregistrements internes à grande échelle. L'objectif central est la généralisation zero-shot: le modèle doit suivre des mouvements hautement dynamiques et s'adapter à des tâches de contrôle inédites sans réentraînement spécifique. L'approche s'attaque au compromis agility-generalization qui bride les trackers MLP peu profonds, architecture dominante jusqu'ici mais limitée par la rareté des données d'entraînement. En scalant simultanément les données et la capacité du modèle, Humanoid-GPT prétend résoudre ces deux dimensions avec un unique modèle génératif. Si ces résultats se confirment à la validation indépendante, le résumé restant vague sur les benchmarks exacts et les conditions expérimentales, cela réduirait concrètement le coût de déploiement pour les intégrateurs de systèmes humanoïdes qui doivent aujourd'hui entraîner des politiques séparées pour chaque tâche ou morphologie de robot. Cette contribution s'inscrit dans la tendance au scaling des politiques de contrôle humanoïde: NVIDIA avec GR00T N2, Physical Intelligence avec pi-0 et pi-0.5, ou Berkeley Humanoid ont chacun montré que les Transformers absorbent massivement des données de démonstration pour produire des politiques plus généralisables. Humanoid-GPT se positionne spécifiquement sur le motion tracking en amont des pipelines d'action, plutôt que sur la manipulation de bout en bout. L'absence d'affiliation institutionnelle visible dans le résumé et la nature preprint du document invitent à la prudence sur les affirmations de "new performance frontier"; les benchmarks comparatifs et la revue par les pairs seront déterminants pour l'adoption dans la communauté.

RobotiqueOpinion
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
22arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

RechercheOpinion
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
23arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

RobotiqueOpinion
1 source
Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave
24Le Big Data 

Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave

Nvidia a présenté le 1er juin 2026, lors du Computex à Taipei, son robot humanoïde de référence baptisé Isaac GR00T Reference Humanoid Robot. Développé en partenariat avec Unitree, spécialiste chinois de la robotique, et Sharpa, entreprise singapourienne experte en mains robotiques, ce système repose sur le corps humanoïde H2 Plus d'Unitree, 1,80 mètre, 68 kilogrammes, 31 degrés de liberté. Les mains tactiles à cinq doigts de Sharpa ajoutent 22 degrés de liberté chacune, portant le total à 75 points d'articulation sur l'ensemble du corps. Chaque bras peut soulever 7 kilogrammes en continu, avec des pics à 15 kilogrammes. Le cerveau du système est le calculateur Jetson Thor, basé sur l'architecture Blackwell de Nvidia, capable de dépasser 2 000 téraflops dédiés à l'IA. Le robot embarque le modèle GR00T 1.7 dès sa sortie de boîte, et une batterie de 0,972 kWh offrirait environ trois heures d'autonomie, selon des sources non confirmées officiellement par Nvidia. L'enjeu de cette annonce dépasse largement le robot lui-même. Nvidia ne vend pas un produit commercial destiné aux entreprises ou aux particuliers, mais une plateforme de référence pour la recherche. L'idée est de fournir aux laboratoires un socle matériel et logiciel unifié, comparable à ce qu'un PC de référence représente pour l'informatique grand public : éviter que chaque équipe perde des mois à assembler et intégrer ses propres composants, pour se concentrer sur ce qui compte, à savoir développer des algorithmes, des comportements et des capacités cognitives. Stanford Robotics Center, ETH Zurich, Ai2 de Seattle et le laboratoire de robotique de l'UC San Diego figurent parmi les premiers partenaires confirmés. La disponibilité pour les développeurs et laboratoires intéressés est prévue d'ici fin 2026. Cette initiative s'inscrit dans une bataille industrielle et géopolitique de grande ampleur autour de la robotique humanoïde. Des acteurs comme Boston Dynamics, Figure, Tesla avec Optimus, ou encore 1X Technologies investissent massivement dans ce domaine, perçu comme le prochain grand marché de l'IA physique. Nvidia, jusqu'ici positionné comme fournisseur de puissance de calcul, tente avec Isaac GR00T de devenir la couche d'infrastructure incontournable de toute la filière robotique mondiale. L'absence notable d'institutions chinoises parmi les premiers partenaires, alors même qu'Unitree est un acteur chinois central du projet, révèle la tension géopolitique qui traverse ce secteur. En standardisant la plateforme de recherche, Nvidia espère non seulement accélérer les progrès scientifiques, mais aussi s'imposer comme le standard de référence avant que ses concurrents ne définissent les leurs.

UEETH Zurich figure parmi les premiers laboratoires partenaires confirmés, ouvrant aux chercheurs européens un accès potentiel à cette plateforme de référence en robotique humanoïde d'ici fin 2026.

💬 Ce qui m'intéresse, c'est pas le robot, c'est le coup qu'essaie de rejouer Nvidia. Imposer une plateforme de référence à la recherche avant que le marché se structure, c'est exactement comme ça que CUDA est devenu incontournable il y a vingt ans. L'absence des labos chinois dans les premiers partenaires alors qu'Unitree est au coeur du hardware, ça dit tout sur où se joue vraiment la bataille.

RobotiqueOpinion
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
25arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

RobotiqueOpinion
1 source
PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes
26arXiv cs.RO 

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

RecherchePaper
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
27Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

RobotiqueOpinion
1 source
« Des dizaines de milliards de robots d’ici 10 à 20 ans » : la prédiction folle de Nvidia
28Frandroid 

« Des dizaines de milliards de robots d’ici 10 à 20 ans » : la prédiction folle de Nvidia

Un cadre dirigeant de Nvidia a affirmé que le nombre de robots sur Terre dépassera un jour celui des êtres humains, prédisant l'émergence de dizaines de milliards d'appareils dans un horizon de dix à vingt ans. Cette déclaration, rapportée par Frandroid, illustre l'ambition vertigineuse avec laquelle le géant américain des semi-conducteurs positionne désormais la robotique physique au coeur de sa stratégie de croissance. L'enjeu dépasse largement la provocation chiffrée : Nvidia cherche à s'imposer comme la colonne vertébrale computationnelle de la prochaine vague industrielle. L'entreprise a déjà lancé Project GR00T, un modèle fondateur pour robots humanoïdes, et sa plateforme Isaac pour la simulation et l'entraînement robotique. Si des dizaines de milliards de robots nécessitent des puces, des logiciels et des infrastructures d'entraînement, Nvidia se retrouve en position de fournisseur incontournable, reproduisant à l'échelle physique le rôle qu'elle joue aujourd'hui dans l'IA générative. Cette prédiction s'inscrit dans une course mondiale où Tesla, Figure AI, 1X Technologies et Boston Dynamics parient tous sur l'humanoides à grande échelle. Les gouvernements chinois et américain y voient un enjeu de souveraineté industrielle. La question n'est donc plus de savoir si les robots envahiront les usines, les entrepôts et les foyers, mais à quelle vitesse, et qui contrôlera la chaîne de valeur, des capteurs aux modèles d'IA embarqués, en passant par les puces qui les font tourner.

RobotiqueOpinion
1 source
Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source
29The Decoder 

Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source

Lors du GTC Taipei, Nvidia a dévoilé plusieurs modèles destinés à accélérer son offensive dans l'IA physique. La conférence a été marquée par trois annonces majeures : Cosmos 3, un nouveau modèle de monde (world model) de dernière génération, Alpamayo 2 Super, une version considérablement élargie du modèle de conduite autonome, et une plateforme de référence ouverte pour robots humanoïdes. Ces annonces s'inscrivent dans la stratégie de Jensen Huang de faire de Nvidia le fournisseur incontournable de l'infrastructure pour les systèmes physiques intelligents. Ces outils visent des marchés en pleine explosion : la robotique industrielle, les véhicules autonomes et les systèmes de surveillance vidéo intelligents. Un world model comme Cosmos 3 permet à des robots ou des voitures autonomes de simuler leur environnement et d'anticiper les conséquences de leurs actions, une brique fondamentale pour passer de la démonstration laboratoire au déploiement à grande échelle. La plateforme humanoïde ouverte, quant à elle, vise à standardiser le développement matériel et logiciel pour les constructeurs de robots à deux jambes, réduisant les coûts d'entrée pour les startups du secteur. Nvidia capitalise ici sur sa domination dans les GPU d'entraînement pour étendre son empreinte vers l'inférence embarquée et les systèmes temps-réel. La concurrence s'intensifie avec des acteurs comme Qualcomm et Intel sur les puces pour véhicules autonomes, tandis que des entreprises comme Figure, Boston Dynamics ou 1X Technologies attendent des plateformes logicielles communes pour accélérer leurs développements. GTC Taipei confirme que Nvidia ne veut pas seulement alimenter les data centers de l'IA, il veut aussi être le cerveau des machines qui bougent.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW, Volkswagen) et les startups robotiques européennes pourraient bénéficier de la plateforme humanoïde ouverte pour réduire leurs coûts d'entrée et accélérer leurs développements en robotique industrielle et véhicules autonomes.

RobotiqueOpinion
1 source
OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun
30The Decoder 

OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun

OpenAI relance une division robotique, cinq ans après avoir fermé son équipe initiale dédiée à ce domaine. Selon les informations publiées par The Decoder, cette nouvelle équipe est directement issue du programme de recherche en simulation du monde développé en interne. Sam Altman, PDG d'OpenAI, a exprimé une ambition à long terme claire : offrir à chaque individu un robot personnel capable de répondre à n'importe quel besoin. Dans l'immédiat, les premiers déploiements cibleront la construction d'infrastructures. Ce retour dans la robotique signale une accélération majeure dans la course à l'automatisation physique. Après avoir dominé le domaine logiciel avec ChatGPT et les modèles GPT, OpenAI entend désormais ancrer ses modèles d'intelligence artificielle dans le monde réel. L'enjeu est considérable : des robots capables d'opérer dans des environnements complexes pourraient transformer des secteurs entiers comme la construction, la logistique ou les services à la personne, et redéfinir profondément le marché du travail. OpenAI avait abandonné la robotique en 2021, citant des contraintes de ressources et un recentrage sur les modèles de langage. Depuis, le paysage a radicalement changé : Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus ont intensément développé des robots humanoïdes, attisant l'intérêt des investisseurs. Le fait qu'OpenAI s'appuie sur ses travaux de simulation du monde suggère une approche différente, centrée sur la généralisation des comportements plutôt que sur la programmation spécialisée, une stratégie potentiellement décisive dans cette compétition naissante.

UEL'entrée d'OpenAI dans la robotique physique pourrait accélérer l'automatisation dans des secteurs clés en Europe comme la construction et la logistique, avec des répercussions potentielles sur l'emploi, mais sans impact direct immédiat sur la France ou une réglementation européenne.

RobotiqueOpinion
1 source
TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus
31arXiv cs.RO 

TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.31121) TARIC, un cadre de navigation extérieure vision-langage (VLN) conçu pour résister aux interruptions d'indices sémantiques sur des trajets longue distance. Le problème ciblé est précis : lorsqu'un robot navigue en milieu ouvert sur des routes de 600 à 1 000 mètres, les repères visuels guidant sa trajectoire (panneaux, objets, structures reconnaissables) disparaissent régulièrement du champ de vision, créant des phases sans indice pendant lesquelles les systèmes actuels dérivent, oscillent ou font demi-tour. TARIC répond avec trois mécanismes intégrés : extraction d'orientations sémantiques depuis des indices de but filtrés par visibilité, ancrage de ces orientations dans un profil de traversabilité en temps réel pour générer des caps exécutables (et non plus de simples filtres de sécurité), et mémorisation des indices 2D dans une carte 3D alignée sur le monde avec un mécanisme de lecture tenant compte de l'incertitude. Évalué sur des plateformes quadrupèdes et sur roues, le système atteint 40 % de taux de succès en conditions réelles contre 17,5 % pour la meilleure baseline existante, et améliore de plus de 10 points de pourcentage le taux en simulation. Ce résultat terrain est significatif dans un domaine où le fossé entre simulation et déploiement reste l'obstacle majeur. La plupart des frameworks VLN extérieurs publiés présentent des performances en simulation qui ne se transposent pas au terrain ; TARIC maintient un gain relatif de 2,3× sur le meilleur concurrent en conditions réelles, ce qui suggère que traiter la traversabilité comme une contrainte de guidance active (et non un simple filtre) réduit effectivement le sim-to-real gap. Pour les intégrateurs de robots d'inspection ou de surveillance sur campus ou sites industriels, cela signifie une navigation autonome longue distance plus robuste sans infrastructure de balises denses. La contribution architecturale clé, transformer des indices 2D éphémères en mémoire 3D avec readout incertain, ouvre aussi une piste concrète pour les AMR opérant dans des environnements semi-structurés. La navigation vision-langage en extérieur est un champ actif depuis les travaux sur VLN-BERT et les méthodes fondées sur CLIP, mais la majorité des approches ont été conçues pour des intérieurs structurés ou des parcours courts. L'extension aux environnements ouverts sur plus de 600 mètres positionne directement TARIC face à des acteurs comme Boston Dynamics (Spot), Unitree et ANYbotics, dont les quadrupèdes déployés en inspection longue distance dépendent encore largement de waypoints prédéfinis ou de cartes SLAM. TARIC, issu d'un preprint non encore soumis à peer review, reste à ce stade une preuve de concept académique : les prochaines étapes naturelles incluent une validation sur des flottes multi-robots, une intégration avec des stacks open-source comme Nav2, et des tests en conditions météorologiques dégradées, non couverts par l'article.

RecherchePaper
1 source
Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle
32MarkTechPost 

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle

Genesis AI a lancé Genesis World 1.0, une plateforme de simulation conçue pour accélérer le développement des modèles de fondation en robotique. La suite se compose de quatre éléments : un moteur physique, Nyx (un moteur de rendu par lancer de rayons en temps réel), Quadrants (un compilateur Python vers GPU), et une interface de simulation. Le problème que tente de résoudre cette plateforme est concret : évaluer une politique robotique sur une centaine de tâches avec plusieurs centaines d'épisodes chacune nécessite normalement plus de 200 heures de fonctionnement continu avec un opérateur humain et un seul robot. Genesis World 1.0 ramène cette même évaluation à moins de 30 minutes, sans intervention humaine ni matériel physique, avec une reproductibilité bit à bit des résultats. C'est un gain d'environ deux ordres de grandeur sur le temps de cycle d'évaluation. Ce bond de performance change fondamentalement la manière dont les équipes de recherche peuvent comparer des variantes de modèles. Jusqu'ici, la lenteur de l'évaluation réelle obligeait à faire des choix brutaux sur le nombre de checkpoints testés, biaisant de facto les décisions de développement. Genesis AI a délibérément choisi d'utiliser la simulation pour l'évaluation avant de l'utiliser pour la génération de données d'entraînement, et ce pour une raison méthodologique précise : si entraînement et évaluation partagent la même distribution simulée, un gain de performance peut simplement refléter une meilleure adaptation au simulateur, et non un progrès réel. L'approche retenue, baptisée "zero-shot real-to-sim", consiste à évaluer en simulation des politiques entraînées exclusivement sur des données réelles. Les résultats de corrélation sont probants : la corrélation de Pearson entre les performances en simulation et sur robot physique atteint 0,8996 (intervalle de confiance à 95 % : [0,7439 ; 0,9314]), calculée sur trois variantes de modèles (Small, Medium, Large), 14 tâches et 200 épisodes par tâche, avec un million d'itérations bootstrap. Le Mean Maximum Rank Violation (MMRV) s'établit à 0,0166, ce qui signifie que le simulateur préserve fidèlement le classement relatif des modèles entre eux. Genesis AI évolue dans un secteur en pleine structuration, où des acteurs comme Google DeepMind, Physical Intelligence ou encore Boston Dynamics investissent massivement dans les modèles de fondation pour la robotique généraliste. La qualité du simulateur est devenue un avantage compétitif direct : Genesis revendique un écart de réalité réduit de 45 % par rapport au meilleur simulateur concurrent, mesuré par le score FID sur leur jeu de données. Pour diagnostiquer précisément les sources de divergence simulation-réalité, l'équipe a construit un banc de test côte à côte permettant de faire fonctionner simultanément le simulateur et un robot physique depuis la même initialisation, en permutant les sources d'observations (caméra, proprioception) pour isoler si les écarts viennent de la physique, du rendu, des communications ou du contrôle. Nyx, le moteur de rendu intégré, vise des images 1080p sans bruit en moins de 4 millisecondes sur un GPU grand public haut de gamme, en s'appuyant sur le lancer de rayons matériel et des splats gaussiens 3D pour les zones où la reconstruction en maillage reste insuffisante.

💬 200 heures d'évaluation robotique ramenées à 30 minutes, c'est pas un gain marginal, c'est un changement de paradigme dans la façon dont on peut itérer sur les modèles. Ce qui m'intéresse surtout, c'est leur choix de séparer les distributions d'entraînement et d'évaluation : simuler les deux ensemble, c'est se mentir à soi-même, et ils l'ont compris. Bon, la corrélation à 0,89 est impressionnante sur le papier, reste à voir si ça tient sur des tâches vraiment hors distribution.

RobotiqueActu
1 source
X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel
33Pandaily 

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

La startup chinoise X-Square Robot, connue pour sa série GreatWall de modèles de fondation robotiques, publie WALL-WM, présenté comme le premier world model à prédiction par événements sémantiques pour la robotique incarnée. Le papier associé, "WALL-WM: Carving World Action Modeling at the Event Joints", décrit une architecture en trois couches : une couche d'entrée d'instructions d'événements, une couche de prédiction centrale utilisant l'optimiseur Muon distribué (DMuon) pour une meilleure stabilité de convergence, et une stratégie de packing multi-événements réduisant les pertes de calcul lors de l'entraînement. Sur les benchmarks de génération vidéo incarnée, WALL-WM surpasse Wan2.1-14B et Open-Sora 2.0 sur qualité de mouvement, cohérence sémantique et plausibilité physique. Sur le benchmark Core15 L1, il dépasse Pi0.5 de Physical Intelligence et DreamZero sur les tâches de base, raisonnement, manipulation dextre et généralisation sous instruction abstraite. L'intérêt technique réside dans un changement de paradigme pour les modèles d'action. Les architectures VLA dominantes prédisent des chunks d'actions à intervalles fixes, où sera la main du robot dans 0.1, 0.2, 0.3 secondes, ce qui force le modèle à mémoriser des déplacements millimétriques par frame plutôt qu'à comprendre l'objectif sémantique ("saisir la tasse"). Cette fragilité structurelle signifie qu'un changement d'objet ou de surface suffit à faire échouer le modèle. WALL-WM prédit directement l'état cible, c'est-à-dire le moment de la saisie, puis génère synchroniquement la séquence d'actions pour y parvenir. Le papier identifie par ailleurs un problème architectural fondamental : texte, vision et action opèrent sur des géométries de manifold distinctes, et leur projection directe dans un espace latent partagé dégrade les représentations préentraînées, un défaut que l'architecture cherche à corriger via ses trois couches spécialisées. X-Square Robot s'inscrit dans la course des laboratoires chinois aux fondations VLA et world models, aux côtés d'Unitree, Fourier Intelligence et Agibot. Les benchmarks publiés visent directement Physical Intelligence (Pi0.5) et ses homologues américains comme Figure AI. Il faut toutefois souligner que WALL-WM reste, à ce stade, une publication de recherche sans déploiement commercial ni pilote industriel annoncé. Les performances sur benchmark L1 ne préjugent pas des résultats en conditions réelles, où l'éclairage variable, la déformation des objets et les perturbations de contact constituent le vrai test de la généralisation sim-to-real. Aucune timeline de productisation n'est mentionnée dans l'annonce.

RobotiqueOpinion
1 source
Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde
34arXiv cs.RO 

Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde

Une équipe de chercheurs propose DUST (DUal-STream diffusion), un framework qui augmente les modèles vision-langage-action (VLA) avec un world model pour améliorer l'apprentissage de politiques robotiques. L'architecture repose sur un transformer de diffusion multimodal qui maintient des flux séparés pour chaque modalité (vision et action) tout en permettant un partage de connaissances inter-modal. Techniquement, DUST introduit des perturbations de bruit indépendantes, une perte flow matching découplée pour apprendre les relations causales entre modalités, et une méthode d'échantillonnage asynchrone des tokens action et vision. Sur les benchmarks simulés RoboCasa et GR-1, DUST affiche des gains allant jusqu'à 6 % par rapport aux meilleures références VLA et world-modeling actuelles, avec une amélioration supplémentaire de 2 à 5 % via le scaling à l'inférence. Sur tâches réelles avec le bras Franka Research 3, le système surpasse les baselines de 10 % en taux de succès. Le point critique ici est la gestion du "modality gap" : prédire simultanément des états visuels futurs et des séquences d'actions est un problème ouvert, car les deux modalités ont des structures temporelles et sémantiques très différentes. DUST contourne ce problème en maintenant des flux distincts plutôt qu'en les fusionnant naïvement, ce qui préserve les propriétés propres à chaque modalité. Le gain de 10 % en conditions réelles est notable, mais reste à interpréter avec prudence : les expériences portent sur un seul robot (Franka Research 3) et les tâches réelles ne sont pas détaillées dans l'abstract, ce qui limite la généralisation. La capacité de transfer learning à partir de vidéos sans annotations d'actions ouvre en revanche une voie concrète pour réduire le coût de collecte de données. DUST s'inscrit dans une vague de travaux qui cherchent à doter les VLA d'une forme de "prévoyance" via des world models, en écho à des approches comme GR-1 (Humanoid VLA de Shanghai AI Lab) ou Pi-0 de Physical Intelligence. La tendance lourde est de combiner la puissance des LLM pour le raisonnement avec des modèles prédictifs du monde physique, pour réduire le sim-to-real gap et permettre une généralisation hors distribution. La prochaine étape logique serait de tester DUST sur des morphologies robotiques hétérogènes et des tâches de manipulation longue durée, ce que le joint-training avec des datasets humains et robots suggère comme direction.

RechercheOpinion
1 source
PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle
35arXiv cs.RO 

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

PhAIL (Physical AI Leaderboard, phail.ai) est un benchmark open-source présenté sur arXiv (arXiv:2605.29710) qui évalue des politiques VLA (vision-language-action) sur un bras Franka FR3 en conditions réelles. Le protocole remplace le traditionnel taux de succès binaire à timeout fixe par une méthodologie distributionnelle centrée sur la fonction de distribution cumulative du temps-avant-succès (CDF). Deux outils distincts structurent l'évaluation : un score nommé Human-Relative Throughput (HRT), grandeur sans dimension avec intervalles de confiance bootstrap, ancré à la téléopération humaine sur le même équipement ; et un test de significativité Kolmogorov-Smirnov calculé par objet puis macro-moyenné. Le benchmark a été appliqué à quatre VLAs publiques, dont GR00T (NVIDIA), ACT et OpenPI, avec jusqu'à 30 rollouts par cellule (modèle x objet). Résultat central : le meilleur VLA évalué reste environ sept fois plus lent par opération que la référence humaine, mesuré via le ratio RMST. L'enjeu est méthodologique autant que technique. L'état de l'art en évaluation VLA repose presque universellement sur un taux de succès à timeout fixe avec N inférieur ou égal à 25 rollouts et sans intervalles de confiance, ce qui rend les comparaisons proches statistiquement non résolvables. PhAIL démontre que le test KS macro-moyenné tranche deux paires proches (GR00T vs. ACT, OpenPI vs. ACT) là où les métriques binaires échouent, toujours à N inférieur ou égal à 30 rollouts. La paire la plus serrée, OpenPI vs. GR00T, reste irrésolue dans le budget expérimental alloué. Le facteur sept entre humain et meilleur VLA constitue un point d'ancrage concret pour les intégrateurs et décideurs industriels qui doivent arbitrer entre performance annoncée et réalité opérationnelle. La publication s'inscrit dans un effort de standardisation comparable à ce qu'ImageNet ou GLUE ont accompli pour la vision par ordinateur et le traitement du langage naturel. Le champ VLA manquait d'un protocole reproductible et statistiquement rigoureux, rendant les comparaisons entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenPI ou les architectures propriétaires de Figure et Boston Dynamics difficiles à interpréter. Le Franka FR3, très répandu en recherche académique, sert de plateforme de référence, et le benchmark est entièrement ouvert : dataset, artefacts par rollout et implémentation de bout en bout disponibles sur phail.ai. Les prochaines étapes naturelles incluent l'extension à d'autres plateformes matérielles, à des tâches bimanuelles ou de manipulation complexe, et l'intégration de VLAs propriétaires dans le protocole.

UELe benchmark PhAIL repose sur le bras Franka FR3 très répandu dans les laboratoires académiques européens, offrant aux chercheurs et intégrateurs UE un protocole rigoureux et reproductible pour évaluer les VLAs en conditions réelles et quantifier objectivement l'écart entre performance annoncée et réalité opérationnelle.

💬 Ce que je retiens, c'est le facteur 7. Le meilleur VLA testé reste sept fois plus lent qu'un humain sur la même tâche, et c'est la première fois qu'on a une mesure comme ça, proprement ancrée sur de la téléopération humaine réelle avec du KS test et des intervalles de confiance. Le benchmark binaire à timeout qu'on utilisait jusque-là, c'était du bricolage habillé en science.

RobotiqueOpinion
1 source
Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire
36arXiv cs.RO 

Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire

Une étude publiée sur arXiv en mai 2026 (réf. 2605.28726) remet en question une hypothèse largement répandue dans le déploiement des politiques robotiques VLA : le contrôle de vitesse constituerait un indicateur fiable de défaillance motrice. Les chercheurs ont soumis trois architectures VLA majeures, VQ-BeT (tokens discrets), Diffusion Policy et ACT (architectures continues), à un protocole unifié de 450 épisodes sur deux plateformes : PushT et ALOHA, ce dernier couvrant la manipulation bimane à 14 degrés de liberté. Premier résultat : le taux d'inversion de direction est le seul prédicteur universel de défaillance, avec des AUROC de 0,93, 0,79 et 0,91 selon l'architecture (p < 0,001). Le monitoring des à-coups (jerk) se révèle prédictif uniquement pour les architectures à tokens discrets, avec un gradient décroissant de 0,88 à 0,41 en passant aux architectures continues. Le contrôle de vitesse, lui, affiche des AUROC entre 0,41 et 0,52 sur les architectures continues, soit un niveau proche du hasard. Ces résultats ont une portée directe pour les équipes de déploiement : le contrôle de vitesse est actuellement le mécanisme de sécurité le plus répandu dans les bases de code VLA en production, et il s'avère inefficace pour détecter une défaillance imminente sur les architectures continues (AUROC 0,52 sur ACT, 0,41 sur Diffusion Policy). L'étude établit que les familles discrètes et continues produisent des signatures de défaillance qualitativement différentes, et qu'aucun moniteur unique ne peut couvrir les deux. Pour un intégrateur ou un COO déployant un humanoïde ou un bras collaboratif en cellule de production, un indicateur de sécurité mal calibré représente un risque opérationnel concret, pas une nuance académique. La distinction discret/continu dans les VLA est connue depuis les travaux fondateurs sur ACT (Zhao et al., 2023) et Diffusion Policy (Chi et al., 2023), mais ses implications sur le monitoring n'avaient pas été quantifiées à cette échelle. L'étude repose sur SafeContract, un toolkit open source de surveillance en boîte noire sans réentraînement, avec calibration conforme, accessible sur GitHub (krishnam94/vla-edge). Les acteurs déployant aujourd'hui des architectures continues, notamment Figure AI avec Figure 03, Physical Intelligence avec son modèle π0, ou Boston Dynamics, sont directement concernés par ces résultats. La prochaine étape logique est l'intégration de moniteurs architecture-spécifiques dans les pipelines de validation sim-to-real, en amont de toute mise en production sur site.

UELes intégrateurs et équipes R&D européens déployant des architectures VLA continues (ACT, Diffusion Policy) doivent auditer leurs mécanismes de surveillance de sécurité, le contrôle de vitesse, mécanisme dominant en production, s'avérant quasi-aléatoire pour détecter les défaillances sur ces architectures.

💬 Le contrôle de vitesse comme indicateur de sécurité sur les VLA continus, c'est à peu près aussi fiable que tirer à pile ou face. Ce n'est pas une petite subtilité académique : c'est le mécanisme le plus déployé en production aujourd'hui, et il détecte les défaillances imminentes avec un AUROC de 0,41 sur Diffusion Policy. Reste à voir combien d'intégrateurs vont vraiment auditer leurs pipelines après ça, mais l'étude arrive au bon moment, avec un toolkit open source en bonus.

RobotiqueOpinion
1 source
AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation
37arXiv cs.RO 

AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation

AdaMorph est un framework de retargeting de mouvement humain vers robot, présenté dans un preprint arXiv (arXiv:2601.07284), qui propose d'unifier sous un seul modèle le transfert de mouvements vers des robots aux morphologies hétérogènes. Les auteurs ont évalué leur approche sur 12 humanoïdes distincts aux topologies cinématiques variées. Le système traite le retargeting comme une tâche de génération conditionnelle : les mouvements sont encodés dans un espace latent "morphology-agnostic" (indépendant de la morphologie du robot cible), puis décodés via un mécanisme de prompting dual. La clé technique est l'Adaptive Layer Normalization (AdaLN), qui module dynamiquement les features du décodeur selon les contraintes d'embodiment du robot cible, plutôt que de concaténer naïvement les paramètres cinématiques en entrée. Un objectif d'entraînement par curriculum garantit la plausibilité physique, notamment la cohérence d'orientation et de trajectoire par intégration. L'enjeu central qu'adresse AdaMorph est le passage à l'échelle : les solutions existantes entraînent un modèle distinct par robot, ce qui devient ingérable à mesure que le catalogue d'humanoïdes s'élargit. Un modèle unifié exploitant des sémantiques de mouvement partagées représente un changement architectural pertinent pour les équipes déployant sur plusieurs plateformes simultanément, qu'il s'agisse d'intégrateurs industriels ou de constructeurs comme Figure, 1X ou Agility Robotics. La généralisation zero-shot sur des mouvements complexes non vus à l'entraînement est le résultat le plus significatif : elle suggère que l'espace latent capture bien l'intent moteur de façon transférable, sans réentraînement par morphologie. Le retargeting de mouvement est un problème ouvert depuis les premières captures de mouvement appliquées à la robotique. Les approches actuelles, notamment les méthodes par apprentissage par renforcement de Berkeley ou des frameworks comme PHC (Perpetual Humanoid Control), traitent généralement une morphologie à la fois. AdaMorph s'inscrit dans la tendance des foundation models appliqués au contrôle robotique, comparable dans son ambition aux politiques généralisables de Physical Intelligence avec pi0. À souligner : il s'agit d'un résultat purement académique, validé en simulation sur 12 robots sans déploiement réel annoncé ni partenariat industriel mentionné. La question du transfert sim-to-real sur des tâches physiques contraintes reste entière.

RobotiquePaper
1 source
Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique
38Ars Technica AI 

Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique

Hugging Face a publié le projet LeRobot Humanoid, une paire de jambes robotiques humanoïdes conçue pour être accessible aux chercheurs et aux développeurs. L'ensemble coûte environ 2 500 dollars et repose sur des pièces imprimées en 3D ainsi que des composants disponibles dans le commerce. La publication est complète : elle comprend une liste de matériaux, les fichiers nécessaires à l'impression des pièces, la documentation de câblage, les instructions d'assemblage physique, ainsi que des outils logiciels pour calibrer et contrôler le robot, que ce soit dans un corps physique ou en simulation. Le projet a été présenté dans un billet de blog cosigné par Virgile Batto, ingénieur en robotique chez Hugging Face. Cette initiative pourrait significativement abaisser la barrière d'entrée dans la recherche en robotique humanoïde. Jusqu'ici, développer un robot physique capable de servir de plateforme d'expérimentation représentait un investissement prohibitif, souvent réservé aux grands laboratoires académiques ou aux entreprises bien financées. Disposer d'un corps physique à moins de 3 000 dollars permet aux équipes de taille modeste de tester et d'entraîner des logiciels d'IA robotique en conditions réelles, là où la simulation seule montre ses limites. L'accès au code source, aux schémas et aux fichiers de fabrication facilite aussi la modification, la réparation et l'instrumentation du robot selon les besoins spécifiques de chaque expérience. Hugging Face s'est imposé comme une infrastructure centrale de l'écosystème IA open source, notamment autour des modèles de langage et de vision. Son incursion dans la robotique physique s'inscrit dans une dynamique plus large où plusieurs acteurs tentent de démocratiser le développement de robots intelligents, face à des projets commerciaux comme ceux de Figure AI, 1X Technologies ou Boston Dynamics, qui restent hors de portée pour la plupart des chercheurs indépendants. LeRobot Humanoid ne prétend pas concurrencer ces plateformes avancées, mais vise explicitement un public qui veut comprendre, modifier et apprendre, ouvrant potentiellement la voie à une communauté de robotique ouverte comparable à ce qu'a été Hugging Face pour les modèles de langage.

UEHugging Face, entreprise aux origines françaises cofondée à Paris, démocratise la recherche en robotique humanoïde avec un kit open source à 2 500 $, ouvrant la voie aux laboratoires académiques européens aux budgets limités.

💬 2 500 dollars pour rentrer dans la recherche en robotique humanoïde, c'est une vraie rupture. Hugging Face fait exactement ce qu'ils ont fait pour les LLMs : mettre les fichiers, la doc et les outils sur la table et laisser la communauté faire le reste. Une paire de jambes imprimées chez soi c'est encore loin de Figure AI, mais c'est pas le but.

RobotiqueOpinion
1 source
ANYbotics : l’entreprise porte le marché en avant de la robotique autonome
39Le Big Data 

ANYbotics : l’entreprise porte le marché en avant de la robotique autonome

ANYbotics, entreprise suisse fondée en 2016 comme spin-off de l'ETH Zurich, s'impose comme l'un des acteurs de référence de la robotique quadrupède industrielle. Sa technologie phare, le robot ANYmal, est conçue pour inspecter de manière autonome des installations complexes, usines, raffineries, centrales électriques, sites chimiques, sans intervention humaine directe. La machine se déplace sur des terrains accidentés, grimpe des escaliers, traverse des couloirs étroits et des surfaces humides, et embarque des capteurs capables de détecter des anomalies thermiques ou des fuites de gaz en temps réel. ANYbotics commercialise plusieurs versions de ce robot, dont l'ANYmal X, certifié ATEX pour les zones à risque d'explosion. En décembre 2024, la société a finalisé une levée de fonds de série B de 60 millions de dollars, lui permettant d'accélérer son expansion internationale et de renforcer sa capacité de production. L'enjeu dépasse la simple prouesse mécanique : dans les environnements industriels à haut risque, les robots d'ANYbotics remplacent des rondes humaines régulières par des inspections automatisées continues. Les données collectées permettent d'anticiper les pannes avant qu'elles ne deviennent critiques, réduisant les arrêts non planifiés et les coûts de maintenance. Pour des secteurs comme la pétrochimie, l'énergie ou la chimie, où une défaillance peut avoir des conséquences graves sur la sécurité des travailleurs et la continuité de production, cette approche représente un changement opérationnel concret. L'intérêt des grands groupes industriels pour cette technologie confirme que la robotique d'inspection autonome est en train de passer du stade expérimental à celui de standard industriel. La trajectoire d'ANYbotics illustre la montée en puissance d'un écosystème européen de la robotique avancée, porté par la recherche académique suisse. Les fondateurs ont mis plusieurs années à transformer un prototype de laboratoire en produit fiable pour des environnements réels, validant progressivement leur technologie sur le terrain avant de lever des financements significatifs. L'entreprise évolue dans un marché en pleine consolidation, où elle affronte notamment Boston Dynamics et ses concurrents américains et asiatiques. La levée de 60 millions de dollars en 2024 lui donne les moyens de tenir ce rythme, d'ouvrir de nouveaux marchés géographiques et de diversifier ses certifications réglementaires. Les prochaines étapes concerneront probablement l'intégration plus poussée de l'intelligence artificielle dans l'analyse des données collectées, et l'extension vers de nouveaux secteurs comme les infrastructures d'énergie renouvelable.

UEANYbotics, spin-off suisse de l'ETH Zurich, renforce l'écosystème européen de la robotique industrielle avec des robots d'inspection certifiés ATEX, directement applicables aux installations pétrochimiques et énergétiques en Europe.

RobotiqueOpinion
1 source
La Chine donne une carte d’identité aux robots humanoïdes : Bientôt le droit de vote ?
40Le Big Data 

La Chine donne une carte d’identité aux robots humanoïdes : Bientôt le droit de vote ?

La Chine a officiellement lancé vendredi une plateforme nationale d'identification des robots humanoïdes, baptisée « Plateforme de services de gestion du cycle de vie complet des humanoïdes ». Pilotée par le Comité de normalisation de la robotique humanoïde et de l'intelligence incarnée, rattaché au ministère chinois de l'Industrie et des Technologies de l'information, cette initiative attribue à chaque robot fabriqué en Chine un identifiant numérique unique, structuré en quatre blocs : un code pays à deux chiffres, un code fabricant à quatre chiffres, un code modèle à six chiffres, et un numéro de série à 17 chiffres pour distinguer chaque unité individuellement. Ce code accompagne la machine de sa fabrication jusqu'à son recyclage et s'applique à l'ensemble de la chaîne, industriels, distributeurs, prestataires, utilisateurs, centres de recyclage. Avant même le lancement officiel, environ 28 000 robots répartis sur 200 modèles disposaient déjà d'une identité numérique, signe que le déploiement était déjà largement anticipé par l'industrie. L'objectif déclaré est de répondre à des enjeux de sécurité, de contrôle et de gouvernance dans un secteur qui évolue plus vite que les réglementations censées l'encadrer. Yu Xiuming, directeur adjoint de l'Institut chinois de normalisation électronique, présente le système moins comme un outil de surveillance que comme une infrastructure industrielle indispensable avant tout déploiement international à grande échelle. Concrètement, la traçabilité complète de chaque unité doit renforcer la responsabilité des fabricants en cas d'incident, faciliter les rappels, et permettre aux autorités de surveiller l'utilisation des machines dans des environnements sensibles. Pour les entreprises, c'est aussi une forme de certification qui facilite l'export et la confiance des clients. Cette initiative s'inscrit dans un contexte de croissance explosive du secteur. Selon une étude IDC citée en janvier 2026, le marché mondial des robots humanoïdes a progressé de 508 % sur un an, avec environ 18 000 unités expédiées à l'échelle mondiale. La Chine est au cœur de cette dynamique, avec plus d'une centaine de fabricants actifs sur son territoire, des entreprises comme Unitree ou Fourier Intelligence ayant déjà attiré l'attention internationale. Pékin mise sur les humanoïdes comme levier stratégique dans sa course technologique face aux États-Unis, et ce système d'identification constitue une étape de normalisation classique dans tout secteur industriel arrivant à maturité. Il pose les bases d'un écosystème plus structuré, condition sine qua non pour que les robots humanoïdes quittent les laboratoires et les usines pilotes pour s'intégrer durablement dans l'économie réelle.

UELes entreprises européennes qui importent ou distribuent des robots humanoïdes fabriqués en Chine devront intégrer ce système d'identification dans leurs processus logistiques et de conformité.

💬 Le titre fait sourire, mais la vraie information c'est que la Chine vient de poser la première brique d'une infrastructure industrielle sérieuse pour les humanoïdes. 508% de croissance sur un an, ça ne se régule pas à la louche. Les boîtes européennes qui importent du chinois vont devoir intégrer ce standard dans leur chaîne, bon gré mal gré.

RobotiqueReglementation
1 source
Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes
41arXiv cs.RO 

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes

Une équipe de chercheurs publie sur arXiv (réf. 2605.23733) une méthode baptisée Any2Any pour transférer des modèles de whole-body tracking (WBT) entre différentes plateformes humanoïdes sans réentraînement complet. Le WBT désigne la capacité d'un robot humanoïde à reproduire fidèlement des mouvements complexes sur l'ensemble du corps, et constitue aujourd'hui un composant clé des pipelines de contrôle humanoïde. Any2Any procède en deux étapes: un alignement cinématique entre robot source et robot cible, puis une adaptation dynamique par fine-tuning paramétrique léger (PEFT) appliqué aux seuls modules sensibles à la dynamique du mouvement. Résultat annoncé: le transfert de modèles Sonic préentraînés sur le Unitree G1 vers deux robots de LimX Robotics, le LimX Oli et le LimX Luna, en mobilisant seulement 1% des données et du calcul nécessaires à un entraînement complet from scratch, avec des performances de suivi comparables ou supérieures. Si ces chiffres se confirment en conditions réelles, Any2Any s'attaque à l'un des principaux verrous économiques du marché humanoïde: le coût de redéveloppement du contrôle moteur bas-niveau pour chaque nouvelle plateforme. Entraîner un modèle WBT from scratch mobilise aujourd'hui d'importants volumes de données simulées et de GPU-heures, ce qui pénalise les robots à faible volume ou en phase de prototype. Un ratio de 1% de ressources représente, si validé, un changement structurel dans l'économie du développement robotique. Cette approche conforte également l'hypothèse d'un "foundation model" pour le contrôle moteur humanoïde: un modèle préentraîné sur une plateforme bien documentée pourrait devenir un socle réutilisable par des intégrateurs tiers, réduisant la barrière à l'entrée pour les acteurs disposant de ressources computationnelles limitées. Le WBT humanoïde concentre une concurrence intense, avec les travaux de Physical Intelligence autour de Pi-0, les modèles GR00T N2 de NVIDIA, et les pipelines internes de Figure AI et Agility Robotics. Unitree, acteur chinois prolixe en publications open-source, fournit son G1 comme base de préentraînement dans un nombre croissant de travaux académiques. LimX Robotics, moins médiatisé, développe humanoïdes et quadrupèdes et joue ici le rôle de cible de validation. Any2Any reste cependant un preprint arXiv sans validation industrielle publiée, et les démonstrations vidéo sélectionnées dans ce type de soumission ne reflètent pas nécessairement les performances moyennes en environnement non contrôlé. Les prochaines étapes logiques seraient une validation sur des tâches de manipulation en milieu réel et une intégration dans des pipelines open-source existants.

💬 1% des données et du calcul pour transférer un modèle de contrôle moteur entre deux humanoïdes différents, si ça se confirme hors conditions contrôlées, c'est l'un des vrais verrous du secteur qui tombe. Le coût de réentraînement par plateforme pénalise tous les acteurs qui n'ont pas le budget de Unitree ou NVIDIA depuis des années. C'est un preprint, donc on verra, mais l'argument économique est bien posé.

RobotiquePaper
1 source
SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage
42arXiv cs.RO 

SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage

Une équipe de chercheurs a publié le 28 mai 2026 sur arXiv (2605.22894) SCRIPT, un système de contrôle de robots humanoïdes en simulation physique piloté par des instructions en langage naturel. L'architecture centrale, baptisée JAST-DiT (Joint Action-State-Text Diffusion Transformer), représente simultanément les actions du robot, ses états physiques et les commandes textuelles sous forme de flux de tokens distincts, reliés par un mécanisme d'attention conjointe. Cette conception permet une interaction directe entre la sémantique linguistique et la dynamique de contrôle, sans passer par une couche de traduction intermédiaire. Pour stabiliser le contrôle sur des horizons longs, SCRIPT intègre un conditionnement d'historique non linéaire qui conserve un contexte récent dense tout en échantillonnant des repères de plus en plus épars dans l'historique à long terme. Le pré-entraînement par imitation supervisée est ensuite renforcé par une phase RLHR (Reinforcement Learning with Hybrid Rewards), qui injecte un bruit apprenable dans le processus de diffusion pour améliorer la qualité de mouvement et le suivi d'instruction en boucle fermée. Les évaluations quantitatives montrent que SCRIPT dépasse les méthodes antérieures sur trois métriques : alignement textuel, qualité de mouvement et réalisme physique. Les études de passage à l'échelle sur le dataset MotionMillion, qui totalise 1 200 heures de données de mouvement, confirment une progression continue des performances à mesure que le modèle grossit. L'intérêt technique de SCRIPT est de s'attaquer frontalement à la tension structurelle du domaine : entre expressivité sémantique (un humanoïde qui comprend des ordres variés) et faisabilité physique (un humanoïde qui ne tombe pas). Les approches existantes sacrifient généralement l'un pour l'autre. Le fait que SCRIPT améliore simultanément les trois métriques en boucle fermée est notable, car les simulations en boucle ouverte masquent souvent les dérives accumulées. La démonstration de scalabilité sur 1 200 heures de données suggère que l'architecture n'est pas un artefact de surapprentissage sur un corpus réduit, ce qui est un signal positif pour quiconque envisage un pré-entraînement à grande échelle de fondations motrices. Pour les intégrateurs et les équipes R&D, cela valide partiellement l'hypothèse selon laquelle les politiques de diffusion à grande échelle peuvent absorber la variabilité des commandes en langage naturel sans sacrifier la stabilité physique. Ce travail s'inscrit dans la vague des VLA (Vision-Language-Action models) appliqués aux humanoïdes en simulation physique, un axe de recherche très actif depuis 2024. Il entre en concurrence directe avec des approches comme PHC, UniHSI ou les variantes récentes de contrôle par diffusion de Nvidia (GR00T N2), qui ciblent des problèmes similaires de contrôle conditionné par le langage. SCRIPT se distingue par sa composante RLHR post-entraînement et son protocole de scaling explicite, deux éléments souvent absents des publications académiques concurrentes. Il s'agit ici d'une annonce de recherche préprint, pas d'un produit déployé : le code sera rendu public mais aucun calendrier de transfert vers du matériel réel n'est mentionné. Les prochaines étapes naturelles seront le transfert sim-to-real et l'évaluation sur des plateformes physiques comme Unitree H1 ou Figure 03.

💬 Tout le monde fait du contrôle d'humanoïde en simu physique en ce moment, mais SCRIPT se distingue par quelque chose de rare en académique : une phase de renforcement post-entraînement documentée. Sur 1 200 heures de données, les perfs progressent sans s'effondrer, ce qui élimine le scénario "artefact de sur-entraînement". Maintenant faut juste que ça tienne sur un vrai robot, et là c'est une autre histoire.

RobotiqueOpinion
1 source
SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes
43arXiv cs.RO 

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes

Des chercheurs présentent SONIC (arXiv:2511.07820), un modèle fondateur pour le contrôle corporel complet de robots humanoïdes, construit autour d'une mise à l'échelle agressive le long de trois axes : la capacité réseau (de 1,2 million à 42 millions de paramètres), le volume de données (plus de 100 millions de frames issues de 700 heures de capture de mouvement) et le calcul (21 000 heures GPU). La tâche centrale est le suivi de mouvement (motion tracking), utilisé comme proxy d'entraînement pour inculquer des priors sur le mouvement humain sans ingénierie manuelle de récompenses. Deux applications aval sont démontrées : un planificateur cinématique temps réel reliant le suivi de mouvement à des tâches de navigation, et un espace de tokens unifié permettant à une seule politique de gérer à la fois la téléopération VR et des modèles vision-langage-action (VLA). Dans ce second mode, le système réalise de la loco-manipulation autonome en coordonnant simultanément position des mains et des pieds. L'apport principal est d'étendre les lois de scaling, jusqu'ici réservées aux grands modèles de langage, au contrôle humanoïde à corps complet. Les auteurs montrent que les performances progressent de manière régulière avec la quantité de données et le calcul, et que les politiques apprises généralisent à des mouvements non vus à l'entraînement, sans nécessiter de reward shaping manuel. Pour les intégrateurs, l'interface unifiée VR-VLA dans un seul modèle réduit le coût d'adaptation entre téléopération humaine et autonomie. Il convient néanmoins de noter qu'il s'agit d'une publication académique, non d'un produit déployé, et que les démonstrations vidéo sélectionnées ne permettent pas encore d'évaluer la robustesse en conditions industrielles réelles. SONIC s'inscrit dans une course au scaling qui agite l'ensemble de la filière humanoïde. Physical Intelligence a publié Pi-0, un modèle VLA polyvalent ; NVIDIA a lancé GR00T N2 en s'appuyant sur des données synthétiques massives ; Figure et Tesla visent des architectures propriétaires à grande échelle avec Optimus Gen 3. Les 42 millions de paramètres de SONIC restent modestes comparés aux VLA les plus ambitieux, et le travail ne mentionne pas d'affiliation à un fabricant de robot ni de calendrier de déploiement physique. La prochaine étape logique serait une validation sur hardware réel avec des évaluations quantitatives standardisées, un exercice que les benchmarks émergents du secteur commencent tout juste à formaliser.

RobotiqueOpinion
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
44arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

RobotiquePaper
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
45Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

RobotiqueOpinion
1 source
Des robots humanoïdes de Figure AI gèrent des colis sous le regard fasciné d'internet
46Ars Technica AI 

Des robots humanoïdes de Figure AI gèrent des colis sous le regard fasciné d'internet

Depuis le 13 mai, la startup de robotique Figure AI diffuse en direct sur internet une démonstration continue de ses robots humanoïdes Figure 03 en train de manipuler des colis dans un entrepôt. La tâche assignée aux machines est précise : inspecter le code-barres de petits colis, cartons, enveloppes rembourrées, et les déposer sur un tapis roulant, face codée vers le bas. L'opération se déroule de façon entièrement autonome, sans intervention humaine, selon Brett Adcock, PDG de Figure AI. Le stream, initialement prévu sur huit heures, s'est prolongé pendant près d'une semaine et a inclus, à un moment, une confrontation directe entre un robot et un stagiaire humain. La vidéo est devenue virale, suscitant un engouement rare pour une démonstration technologique industrielle. Sur YouTube, des spectateurs ont baptisé les robots de surnoms ; sur X, des utilisateurs ont comparé l'événement au « plus grand démo produit depuis le 'one more thing' de Steve Jobs ». Face à cet enthousiasme inattendu, Figure AI a rapidement lancé une ligne de merchandising à l'effigie de ses robots. Pour l'industrie, ce type d'attention grand public représente un levier de financement et de recrutement considérable, à un moment où la robotique humanoïde attire des milliards de dollars d'investissement. Figure AI évolue dans un secteur en pleine effervescence, face à des concurrents comme Boston Dynamics, Agility Robotics ou encore Tesla avec son Optimus. La startup cherche à démontrer que ses robots peuvent accomplir des tâches logistiques répétitives avec une fiabilité suffisante pour une intégration industrielle réelle. Cela dit, les experts rappellent que même les démonstrations les plus impressionnantes restent des conditions contrôlées, loin de refléter la complexité du monde réel. La vraie question n'est pas de savoir si un robot peut placer des colis sur un tapis roulant pendant quelques heures, mais s'il peut le faire des milliers d'heures d'affilée, dans des environnements variables, sans supervision.

RobotiqueOpinion
1 source
CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
47arXiv cs.RO 

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

RobotiquePaper
1 source
HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme
48arXiv cs.RO 

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

Des chercheurs ont publié HEX (Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation), un cadre de contrôle robotique déposé sur arXiv (arXiv:2604.07993v2) en avril 2026. HEX cible un problème structurel dans le déploiement des humanoïdes bipèdes de grande taille : la majorité des modèles Vision-Language-Action (VLA) existants traitent les membres du robot de façon indépendante, ce qui rend le contrôle à haute dimension (de nombreux degrés de liberté, ou DoF) instable et peu généralisable. Pour y répondre, HEX introduit une représentation d'état universelle alignée sur l'anatomie humanoïde, conçue pour l'apprentissage à grande échelle sur des plateformes hétérogènes. Son prédicteur proprioceptif unifié basé sur un Mixture-of-Experts (MoE) modélise la coordination corps entier et la dynamique temporelle de mouvement à partir de trajectoires issues de multiples morphologies robotiques. Pour l'encodage visuel temporel, HEX utilise des tokens d'historique légers résumant les observations passées sans réencodage redondant des images, puis fusionne indices visuels et langagiers avec la dynamique proprioceptive via un mécanisme de fusion résiduelle à portes et une tête d'action par flow-matching. Ce cadre adresse un goulet d'étranglement réel dans les VLA appliqués aux humanoïdes : le cloisonnement bras/jambes/torse empêche une coordination fluide et pénalise les tâches à réaction rapide ou à horizon long (planification multi-étapes). Les expériences sur tâches de manipulation réelles montrent que HEX atteint des taux de succès et une capacité de généralisation de l'état de l'art, précisément dans ces deux régimes critiques pour un déploiement industriel. La capacité à transférer des politiques entre morphologies hétérogènes (cross-embodiment) réduit également le coût de collecte de données par plateforme, un argument concret pour les intégrateurs. HEX s'inscrit dans une course dense au contrôle humanoïde haute fidélité. Pi0 de Physical Intelligence a popularisé le flow-matching pour la génération d'actions continues ; GR00T N2 de NVIDIA et Helix de Figure AI misent sur l'apprentissage en simulation massive. OpenVLA reste la référence open-source. HEX se distingue par son MoE dédié à la proprioception multi-corps, absent des architectures concurrentes. L'article étant un preprint arXiv révisé (v2), les résultats restent à confirmer par évaluation indépendante ; aucune affiliation institutionnelle ni timeline de déploiement n'est précisée dans le résumé public.

RobotiqueOpinion
1 source
Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme
49arXiv cs.RO 

Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme

Des chercheurs ont publié en mai 2026 sur arXiv (arXiv:2605.19420) un framework de navigation sémantique appelé Dual-Heatmap Grounding, conçu pour convertir des instructions multimodales ouvertes (texte et image) en objectifs locaux physiquement atteignables par un robot. Plutôt que de prédire un waypoint déterministe unique, leur système génère deux cartes de chaleur : une affordance heatmap modélisant les régions continues accessibles dans le champ de vision du robot, et une facing heatmap encodant les contraintes d'orientation. Ces sorties denses forment un champ de potentiel sémantique différentiable, directement intégrable aux planificateurs locaux existants sans modification d'architecture. L'approche a été évaluée sur trois morphologies robotiques distinctes : le Jetbot (plateforme à roues), le H1 d'Unitree (humanoïde bipède) et l'Aliengo d'Unitree (quadrupède), via un benchmark de simulation construit par les auteurs avec un pipeline de données synthétiques assisté par des modèles de fondation. Les résultats atteignent le niveau state-of-the-art parmi les modèles comparables à 8 milliards de paramètres. Le problème adressé est souvent sous-estimé dans les déploiements réels : régresser un point unique vers le centre géométrique d'un objet cible positionne fréquemment le robot sur une zone non traversable (le milieu d'une table, le centre d'un obstacle), provoquant des échecs d'exécution en cascade difficiles à diagnostiquer. En prédisant une distribution spatiale sur les zones libres plutôt qu'un point fixe, le framework améliore significativement l'Affordance Rate (AR), soit la proportion de cibles effectivement exécutables par le planificateur aval. Pour les intégrateurs de robots de service, de logistique ou d'assistance, c'est un gain direct sur la fiabilité des tâches de navigation pilotées par langage naturel, sans toucher au reste de la stack. Ce travail s'inscrit dans la dynamique des modèles VLA (Vision-Language-Action), qui couplent compréhension sémantique et action physique dans un pipeline unifié. La régression de waypoints était jusqu'ici un standard de fait dans la navigation indoor, malgré ses limites documentées en environnements encombrés. Les travaux concurrents incluent LM-Nav, NavGPT et OpenFMNav. Il faut noter que le papier reste un preprint non peer-reviewed, et que l'ensemble des validations se limite à la simulation. La prochaine étape attendue est une évaluation sur robots physiques en conditions réelles, qui permettrait de mesurer le sim-to-real gap sur cette représentation par heatmap.

RobotiqueOpinion
1 source
DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA
50arXiv cs.RO 

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.19294) une méthode baptisée DEFLECT, Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning, pour corriger un défaut structurel des politiques VLA (Vision-Language-Action) déployées en production. Le problème ciblé est l'inférence asynchrone : pendant qu'un modèle VLA calcule le prochain chunk d'actions, le robot exécute déjà le chunk précédent, conditionné sur une observation capturée plusieurs cycles de contrôle plus tôt. Ce décalage entre prédiction et exécution est bénin à faible latence, mais catastrophique dès que l'inférence s'étire : sur le benchmark Kinetix, le taux de succès s'effondre de 89 % à moins de 1 % quand le cycle d'inférence couvre jusqu'à sept pas de contrôle. DEFLECT apporte un gain de +6,4 points de succès dans ce régime haute latence (5 à 7 pas), +4,6 points sur un VLA réel à la latence maximale testée, avec des améliorations cohérentes sur deux tâches physiques : un pick-and-place bimanuel sur convoyeur et un jeu réactif de type whack-a-mole. L'intérêt industriel de DEFLECT tient à sa nature d'affinement post-entraînement entièrement offline, conçu comme une mise à niveau quasi plug-in sur les stacks VLA asynchrones existants. La méthode construit des paires d'actions contrefactuelles (fraîche vs. périmée) à partir d'une politique de référence gelée, puis les note via un estimateur implicite de ratio de vraisemblance par flow-matching, sans étiquettes humaines, sans modèle de récompense, et sans rollouts en ligne. Ce profil d'intégration est stratégique : les équipes qui déploient aujourd'hui des VLA en environnement industriel, où la latence réseau, la charge GPU et la fréquence de contrôle sont rarement synchronisées, peuvent théoriquement appliquer DEFLECT sans refaire de collecte de données ni de fine-tuning supervisé. La robustesse au délai est un frein réel à la commercialisation des politiques généralisées, et c'est la première approche qui quantifie explicitement l'ampleur de l'effondrement avant de le corriger. Les politiques VLA ont émergé comme paradigme dominant depuis RT-2 (Google DeepMind, 2023) et sont au coeur des systèmes de Physical Intelligence (pi0), de Figure AI (Helix), et de Boston Dynamics. Le problème de l'inférence asynchrone est documenté dans plusieurs travaux depuis 2024, mais les solutions proposées jusqu'ici impliquaient généralement un entraînement en ligne coûteux ou des architectures modifiées. DEFLECT se positionne comme une couche de correction légère, applicable à posteriori, ce qui facilite son adoption dans des pipelines déjà stabilisés. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat commercial dans cette version arXiv, il s'agit d'un résultat de recherche, pas d'un produit shipped. Les prochaines étapes probables incluent des évaluations sur des benchmarks standardisés comme LIBERO ou Open-X Embodiment, et potentiellement une intégration dans des frameworks VLA open-source.

RechercheOpinion
1 source

Suivre Robots humanoïdes en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic