Aller au contenu principal

Dossier Robots humanoïdes — page 3

469 articles · page 3 sur 10

L'industrie des robots humanoïdes : Unitree, Fauna Robotics, Tesla Optimus, Chery, Sony, défis techniques et premiers déploiements en entreprise.

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot
101arXiv cs.RO RechercheOpinion

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

Une équipe de chercheurs a publié le 16 juin 2026 (arXiv:2606.13279) un nouveau cadre VLA pour la manipulation bimanuelles robotique, baptisé "Dual-Level Structural Decomposition". L'architecture repose sur deux modules distincts : un "View-Selective Visual Router" qui pondère dynamiquement la contribution de chaque caméra de poignet selon le contexte de la tâche, et un générateur d'actions basé sur un Mixture-of-Experts (MoE) qui sépare explicitement les trajectoires coordonnées (les deux bras agissent ensemble) des trajectoires indépendantes (chaque bras opère séparément). Évalué sur six tâches bimanuelles simulées dans l'environnement RoboTwin 2.0 et trois tâches longues en conditions réelles, le système affiche un gain de 27,7 % de taux de réussite moyen en simulation et de 43,3 % en déploiement physique par rapport à une baseline VLA monolithique équivalente. Ces résultats interpellent directement les équipes qui développent des politiques de contrôle pour robots humanoïdes ou manipulateurs industriels à deux bras. La progression de 43 % en real-world est significative car elle s'applique à des tâches dites "long-horizon", c'est-à-dire enchaînant plusieurs sous-étapes, là où les VLA monolithiques accumulent les erreurs. Le choix du MoE comme mécanisme de décomposition est notable : plutôt que d'entraîner deux politiques séparées, le modèle apprend à router dynamiquement selon le mode d'interaction détecté, ce qui limite l'explosion du coût d'inférence. Cela valide partiellement l'hypothèse que la structure de l'interaction bimanuele est un biais inductif exploitable -- et que les architectures "tout-en-un" atteignent leurs limites sur ces configurations. Les VLA bimanuelles constituent un chantier actif depuis l'essor des modèles de fondation robotiques en 2024-2025. Des systèmes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ciblent déjà la manipulation généraliste, mais traitent souvent l'entrée visuelle et la génération d'action de façon uniforme. Ce travail s'inscrit dans une tendance plus large vers des architectures modulaires, aux côtés d'initiatives comme RoboTwin 2.0 lui-même, qui sert ici de benchmark standardisé. Les prochaines étapes naturelles seraient un test sur des robots humanoïdes commerciaux (Figure 03, Unitree H1) ou une intégration dans des cellules industrielles bimanuelles -- les auteurs ne mentionnent pas de partenariat industriel ni de timeline de transfert dans la version preprint.

1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
102arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

RobotiqueActu
1 source
MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle
103arXiv cs.RO 

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Des chercheurs ont présenté MV-Actor (arXiv:2606.10899, juin 2026), un framework de perception multi-vues conçu pour la manipulation bimanuele robotique. Le système intègre trois modules successifs : Multi-view Semantic Interaction, qui partage la perception sémantique entre les différents flux caméra plutôt que de les traiter isolément ; Semantic-Spatial Token Interaction, qui ancre ces sémantiques visuelles dans une représentation 3D via un modèle de reconstruction feed-forward ; et un module Guided Metric Depth Repair, qui corrige la profondeur dégradée issue de capteurs grand public (Intel RealSense, Azure Kinect) pour fournir des ancres métriques fiables. Sur le benchmark PerAct2, référence académique dédiée à la manipulation bimanuele multi-tâches, MV-Actor atteint un taux de succès moyen de 87,8%, niveau state-of-the-art. Les évaluations en conditions réelles, avec changements de points de vue fréquents et profondeur bruitée, confirment des gains mesurables par rapport aux baselines RGB et RGB-D. Le verrou que MV-Actor tente de lever est structurel : les politiques multi-vues existantes encodent chaque vue indépendamment ou fusionnent les features de façon superficielle, ce qui produit une perception sémantique fragmentée et une localisation spatiale peu fiable. Pour les intégrateurs B2B qui déploient des cellules à deux bras (assemblage, emballage, picking de pièces déformables), c'est un problème concret : une politique qui "voit" mais ne comprend pas la cohérence entre vues génère des échecs en tâches coordonnées. Le module de réparation de profondeur est notable car il évite le recours à des lidars industriels onéreux, ce qui abaisse le seuil d'adoption. Le 87,8% sur PerAct2 est encourageant, mais ce benchmark reste simulé pour l'essentiel ; les auteurs mentionnent des tests réels sans publier de métriques détaillées par tâche, un point à nuancer. La manipulation bimanuele est un objectif central de plusieurs équipes : CMU, Stanford, ETH Zurich côté académique, et côté industrie les équipes de Figure, 1X Technologies et Sanctuary AI, qui intègrent des bras duaux dans leurs humanoïdes. Les politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux DeepMind sur RoboVLMs s'attaquent au même problème de coordination multi-membres. PerAct2, publié en 2024, étend PerAct au cas bimanuel et s'impose comme référence de comparaison. MV-Actor est pour l'heure un travail académique sans affiliation industrielle déclarée ; aucun pilote ni partenariat de déploiement n'est annoncé, ce qui le situe côté recherche fondamentale plutôt que produit imminent.

UEETH Zurich est cité comme acteur académique sur la manipulation bimanuele, mais MV-Actor n'implique aucune institution ou entreprise européenne directement ; pas d'impact immédiat sur la France/UE.

RobotiqueOpinion
1 source
Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI
104AWS ML Blog 

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et Amazon Web Services ont publié un guide technique détaillant comment entraîner des politiques de comportement pour le robot humanoïde Unitree H1 en utilisant NVIDIA Isaac Lab sur Amazon SageMaker AI. La solution s'appuie sur deux options de calcul complémentaires : SageMaker HyperPod, une infrastructure distribuée managée pour des clusters persistants, et SageMaker Training Jobs, une approche entièrement à la demande où les instances GPU sont provisionnées à la volée puis supprimées à la fin du job. Le code complet est disponible publiquement sur GitHub. L'objectif est de permettre aux équipes robotique de lancer des entraînements par renforcement (RL) à grande échelle, aussi bien en phase d'expérimentation rapide qu'en production sur de longues durées, sans gérer eux-mêmes l'infrastructure de calcul. Cette publication répond à un défi concret : l'entraînement par renforcement pour des comportements complexes, comme la locomotion humanoïde sur terrain accidenté, est extrêmement gourmand en GPU. Un seul run d'entraînement peut durer de quelques heures à plusieurs jours. SageMaker HyperPod intègre un agent de surveillance de santé sur chaque nœud, capable de détecter automatiquement les pannes matérielles, de remplacer les instances défaillantes et de reprendre l'entraînement depuis le dernier checkpoint, sans intervention humaine. Le système publie en parallèle des centaines de métriques de cluster vers Amazon Managed Service for Prometheus, visualisables dans des dashboards Grafana préconfigurés, couvrant l'utilisation GPU, la mémoire, le débit réseau et les performances par tâche. Pour les expériences courtes, SageMaker Training Jobs élimine tout coût de calcul inactif entre les runs, chaque job ne consommant de ressources que le temps de son exécution. L'IA physique bascule progressivement de la recherche vers la production industrielle. Les robots sont désormais formés dans des simulations haute-fidélité accélérées par GPU avant leur déploiement en usine, en entrepôt ou dans des centres logistiques, parce que l'entraînement en conditions réelles reste lent, coûteux et risqué. Cette simulation compresse des mois d'apprentissage en quelques heures, mais déplace le problème vers la gestion du calcul distribué. C'est précisément le créneau que cherchent à occuper AWS et NVIDIA avec cette intégration : en abstraisant la couche infrastructure, ils permettent aux ingénieurs de se concentrer sur la conception des politiques de comportement robotique plutôt que sur la configuration des clusters. SageMaker HyperPod supporte l'orchestration via Amazon EKS ou Slurm, avec un système de quotas fins par instance, GPU entier ou partition MIG (NVIDIA Multi-Instance GPU), couvrant les accélérateurs, les vCPU et la mémoire. La prochaine étape logique sera l'extension de ces pipelines aux modèles de fondation robotique, qui nécessitent des infrastructures similaires mais à une échelle encore supérieure.

RobotiqueActu
1 source
Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique
105IEEE Spectrum Robotics 

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

Lors de l'IEEE International Conference on Robotics and Automation (ICRA 2026) à Vienne, la démonstration ayant le plus mobilisé les visiteurs n'était pas un bras industriel ni un humanoïde en équilibre : c'était une paire de mains robotiques en train de fabriquer un animal en ballon. La société AGILINK y a présenté son système bimain OmniHand 3 Ultra-M réalisant une torsion séquentielle de ballon long format, sans le faire éclater, en gérant en temps réel la déformation de l'objet, la pression interne et la friction de contact. Ce type de tâche, qualifié de "long-horizon contact-rich manipulation", constitue un benchmark reconnu dans la communauté : la légèreté et la déformabilité d'un ballon rendent toute régulation de force particulièrement délicate, et chaque torsion modifie la géométrie et les propriétés mécaniques de l'objet, imposant une adaptation continue du contrôle. Pour entraîner le système, AGILINK a capturé des démonstrations d'artistes professionnels en sculpture sur ballon, les a transposées en politiques de manipulation sur ses mains robotiques, puis a enrichi l'apprentissage par renforcement non seulement avec les séquences réussies, mais aussi avec les interventions correctrices d'opérateurs humains enregistrées chaque fois que l'exécution dérivait vers l'échec. Ce résultat illustre un glissement de paradigme dans la manipulation robotique : après des années centrées sur la dextérité au sens cinématique (nombre de degrés de liberté, précision de positionnement), le vrai verrou se situerait désormais dans la gestion du contact lui-même. La capacité à maintenir une interaction stable avec un objet dont les propriétés évoluent en continu, ce qu'AGILINK désigne par "contact intelligence", reste hors de portée de la plupart des systèmes commerciaux actuels. Pour les intégrateurs industriels et les équipes R&D en manipulation, ce démo signale que les progrès en sensing visuotactile et en politiques d'apprentissage par imitation commencent à produire des résultats reproductibles sur des tâches à la limite du geste humain. La prudence s'impose toutefois : ICRA 2026 est un cadre contrôlé, et les vidéos présentées sélectionnent les exécutions réussies sans données publiées sur le taux de succès systématique ni sur les conditions de répétabilité en dehors du laboratoire. AGILINK, spécialisée dans la manipulation dextre, développe depuis plusieurs années la plateforme OmniHand en combinant sensing visuotactile, contrôle en force et politique bimanuelle. Son positionnement la place en concurrence directe avec Shadow Robot au Royaume-Uni, Dexterous Robotics, et les divisions R&D en main robotique d'ABB et FANUC, ainsi qu'avec des groupes académiques de Stanford et du MIT travaillant sur des architectures similaires. À noter que l'article source est un contenu sponsorisé par AGILINK publié dans le cadre de la couverture ICRA 2026, ce qui en limite l'indépendance éditoriale. Les prochaines étapes annoncées portent sur des extensions vers des tâches industrielles à contact riche, sans qu'un calendrier de déploiement commercial ni des volumes de production aient été précisés.

UELes équipes R&D européennes en manipulation dextre peuvent utiliser cette démonstration présentée à l'ICRA 2026 de Vienne comme signal de convergence entre sensing visuotactile et apprentissage par imitation, notamment pour se positionner face à Shadow Robot (UK) et aux divisions robotique d'ABB.

RobotiquePaper
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
106arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

RobotiqueOpinion
1 source
Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques
107arXiv cs.RO 

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Une équipe de recherche publie sur arXiv (2606.08107) les résultats d'Ego-Pi, une méthode de fine-tuning de modèle VLA (Vision-Language-Action) conçue pour exploiter des données égocentristes humaines dans l'entraînement de robots manipulateurs. L'étude prend comme fondation le modèle π₀.₅ de Physical Intelligence et cible des robots humanoïdes équipés de mains à cinq doigts dextres. Le résultat central : des données de manipulation filmées du point de vue humain permettent au robot d'apprendre de nouvelles sémantiques de tâches et de composer des compétences existantes en comportements inédits, sans nécessiter de données robot équivalentes pour ces mêmes tâches. Ce résultat adresse directement l'un des verrous les plus cités en robotique : la rareté des données d'entraînement à grande échelle. Contrairement au NLP ou à la vision, il n'existe pas de corpus internet pour la manipulation robotique. La démonstration qu'une capture égocentrique humaine, collectée plus facilement, à moindre coût et à plus grande échelle, peut servir de substitut partiel représente un changement de paradigme potentiel pour les pipelines de données. Cela valide aussi l'hypothèse du transfert inter-embodiment : un VLA peut généraliser entre morphologies humaine et robotique si le point de vue reste cohérent. Physical Intelligence, startup californienne fondée en 2023 et à l'origine des modèles π₀ et π₀.₅, positionne ainsi sa fondation comme un socle cross-embodiment viable. Ses concurrents directs, notamment NVIDIA avec GR00T N2 et Google DeepMind avec RT-2, explorent également l'apprentissage multi-source. Il faut souligner qu'Ego-Pi est un preprint non encore évalué par les pairs, sans benchmark industriel ni déploiement réel annoncé à ce stade.

UERésultats potentiellement utiles aux équipes européennes (CEA-List, INRIA) travaillant sur des VLA, mais aucun acteur ni déploiement européen directement impliqué.

RechercheOpinion
1 source
Plus de 2 000 précommandes en six jours : ces robots compagnons cartonnent déjà
108Le Big Data 

Plus de 2 000 précommandes en six jours : ces robots compagnons cartonnent déjà

UBTECH, fabricant chinois de robots humanoïdes, a enregistré plus de 2 110 précommandes pour ses robots compagnons U1 en à peine six jours depuis leur mise en vente. Deux modèles sont proposés : une version masculine de 183 centimètres et une version féminine de 168 centimètres, tous deux dotés de 88 degrés de liberté articulaire pour des mouvements présentés comme naturels. Malgré un acompte de 3 000 yuans à la commande, soit plusieurs centaines d'euros, plus de 1 000 unités avaient déjà trouvé preneur en trois jours seulement. La présentation officielle de la gamme est prévue pour le 30 juin 2026. En parallèle, la fiche produit a été consultée par plus de 150 000 personnes à Pékin lors des trois premiers jours, et l'annonce a suffi à faire bondir de plus de 10 % l'action du fournisseur Leader Harmonious Drive Systems. Ces chiffres signalent un changement de perception notable chez les consommateurs. Les robots U1 ne sont pas de simples gadgets connectés : ils sont conçus pour tenir compagnie, interagir via l'IA et afficher des expressions émotionnelles, positionnant UBTECH sur un segment encore inexploré à grande échelle, celui de la présence domestique humanoïde. Le fait que des milliers de personnes soient prêtes à verser un acompte substantiel pour un produit qui n'existe pas encore physiquement dans leurs foyers indique une appétence réelle, au-delà de la curiosité passagère. Pour l'industrie robotique, qui cherche depuis des années à convaincre le grand public, c'est un signal commercial difficile à ignorer. UBTECH est loin d'être un acteur marginal : la société figure parmi les leaders mondiaux de la robotique humanoïde et opère dans un contexte chinois où les investissements dans ce secteur ont explosé ces deux dernières années, portés par des ambitions industrielles nationales. Le marché des robots compagnons s'inscrit dans une tendance plus large qui voit plusieurs entreprises, en Chine comme aux États-Unis, tenter de franchir le seuil entre robot industriel et robot grand public. Deux mille précommandes restent un volume modeste à l'échelle industrielle, et la conversion en livraisons effectives sera le vrai test. La présentation du 30 juin permettra d'évaluer les capacités concrètes des machines, notamment en matière d'interaction conversationnelle et d'autonomie, deux dimensions qui détermineront si l'engouement initial se transforme en adoption durable ou reste une curiosité de niche à prix élevé.

RobotiqueOpinion
1 source
Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration
109Le Big Data 

Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration

Lors d'une démonstration publique en Chine le 5 juin 2026, un robot humanoïde déguisé en clown, perruque colorée incluse, a donné un coup de pied circulaire dans le ventre d'un enfant positionné au premier rang du public. La scène, capturée en vidéo et relayée sur le réseau social X par le compte Culture Crave, a rapidement accumulé plusieurs millions de vues. Sur les images, on distingue nettement le robot effectuer une rotation, son pied venant heurter l'enfant qui recule sous l'impact. Les personnes présentes semblent immédiatement réagir. On ignore pour l'instant l'identité du fabricant du robot, le lieu exact de la démonstration, et si l'enfant a été blessé. Les circonstances précises, dysfonctionnement technique ou mouvement non anticipé de la chorégraphie programmée, restent également indéterminées. L'incident remet brutalement en lumière la question de la sécurité des robots humanoïdes déployés dans des espaces publics, au contact direct du grand public et d'enfants. Même conçus à des fins de divertissement, ces machines sont capables de produire des gestes rapides, puissants et difficiles à anticiper pour un spectateur non averti. Les fabricants investissent depuis des années dans des mécanismes de détection de proximité et de limitation de force pour réduire les risques de collision avec les humains, mais aucun dispositif n'est infaillible. Un mauvais calibrage, une erreur de programmation ou une mauvaise lecture de l'environnement suffisent à transformer une démonstration ludique en incident. La mise en scène, un robot grimé en clown censé amuser un public familial, rend l'image d'autant plus frappante et questionne le cadre réglementaire entourant ce type d'événements. La robotique humanoïde connaît depuis quelques années une accélération remarquable : les machines marchent, courent, sautent et dansent avec une fluidité croissante, réalisant des figures jugées hors de portée il y a encore peu. Des acteurs comme Boston Dynamics, Unitree ou Figure AI poussent les limites des capacités physiques de ces systèmes, tandis que la Chine a massivement investi dans ce secteur pour en faire un axe stratégique de son industrie technologique. Mais cette montée en puissance s'accompagne d'un déploiement accéléré dans des contextes grand public, salons, centres commerciaux, événements, avant que les standards de sécurité n'aient pleinement suivi. Cet épisode, aussi anecdotique qu'il puisse paraître, est susceptible d'alimenter les débats sur les normes de cohabitation entre robots et humains dans des espaces non contrôlés, un enjeu que régulateurs et industriels devront inévitablement trancher à mesure que ces machines se banalisent.

UEL'incident alimente indirectement le débat européen sur les normes de sécurité encadrant le déploiement de robots humanoïdes dans des espaces publics.

RobotiqueActu
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
110arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

RobotiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
111arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

RobotiqueOpinion
1 source
NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
112MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
Robots domestiques : la collecte de données d’entraînement passe par le ménage gratuit
113Next INpact 

Robots domestiques : la collecte de données d’entraînement passe par le ménage gratuit

La startup allemande MicroAGI a lancé à New York un service baptisé Shift qui propose le nettoyage gratuit d'appartements par des professionnels, en échange d'un consentement précis : les agents portent des caméras filmant chacun de leurs gestes pendant l'intervention. Ces vidéos constituent des données d'entraînement pour des intelligences artificielles destinées à piloter des robots domestiques. L'entreprise rémunère par ailleurs des volontaires 20 dollars de l'heure pour enregistrer leurs tâches quotidiennes chez eux ou au travail. Au premier trimestre 2026, MicroAGI affirme avoir versé plus de 5 millions de dollars à 10 000 "opérateurs" répartis dans une dizaine de pays. Ce modèle répond à un problème structurel que toute l'industrie de la robotique humanoïde bute sur le même mur : l'absence de corpus de données équivalent à ce dont disposent les modèles de langage. Là où une IA générative peut s'alimenter de milliards de textes produits par l'humanité, un robot domestique a besoin de voir des milliers d'heures de mains humaines en train de frotter, plier, trier, saisir. Le constructeur 1X l'a illustré concrètement avec son humanoïde Neo, qui dépend encore régulièrement d'un téléopérateur humain pour accomplir certaines tâches chez le client. Shift contourne le problème en finançant la collecte par la valeur même des enregistrements, transformant le nettoyage en une transaction data contre service. La question de la vie privée est au coeur du modèle, et MicroAGI la gère avec des promesses techniques et juridiques dont la robustesse reste à éprouver. Les caméras floutent automatiquement visages, documents, écrans et pièces d'identité directement à la capture, avant tout téléversement. L'entreprise invoque le RGPD pour garantir un droit à l'effacement, mais considère simultanément que les données anonymisées échappent au champ des lois sur la protection des données, une position juridique contestable. Shift s'inscrit dans une tendance plus large de "travail du clic" appliqué à la robotique, où des entreprises comme Scale AI ou Labeling Tech ont construit des modèles comparables pour d'autres types de données. Avec des investissements massifs dans les humanoïdes chez Figure, Apptronik ou Tesla, la compétition pour ces corpus d'entraînement va s'intensifier, et les appartements new-yorkais ne seront vraisemblablement pas les derniers à servir de terrain de collecte.

UELa startup allemande MicroAGI invoque le RGPD pour légitimer sa collecte de données dans des domiciles privés, mais sa position juridique sur l'anonymisation des données est contestable et pourrait attirer l'attention des autorités européennes de protection des données.

RobotiqueOpinion
1 source
Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA
114arXiv cs.RO 

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

Des chercheurs ont publié sur arXiv (réf. 2508.20072, quatrième révision) Discrete Diffusion VLA, une architecture de politique robot qui intègre la diffusion discrète directement au sein du backbone transformeur unifié d'un modèle Vision-Language-Action (VLA). Sur le benchmark LIBERO, le système atteint 96,4 % de taux de réussite moyen, 71,2 % de correspondance visuelle sur SimplerEnv-Fractal et 54,2 % sur SimplerEnv-Bridge. Des évaluations en conditions réelles ont été conduites sur la plateforme AgileX Cobot Magic, un bras collaboratif de l'équipementier chinois du même nom. Le mécanisme central est un décodage adaptatif par ordre de confiance : le modèle résout d'abord les éléments d'action à haute certitude, puis revisite les prédictions incertaines via un re-masquage secondaire, permettant une correction d'erreur itérative sans générer une séquence de gauche à droite. L'enjeu architectural est concret. Les VLA actuels souffrent de deux compromis : la génération autorégressive classique (ordre fixe gauche-à-droite) affiche des performances limitées, tandis que les architectures à tête de diffusion continue externe, comme celle de Pi-0 de Physical Intelligence, fragmentent les flux d'information entre backbone et module d'action. En maintenant la diffusion à l'intérieur du backbone, cette approche préserve les représentations visuelles et linguistiques pré-entraînées. Le résultat chiffré est parlant : seulement 0,8 % de dégradation sur les tâches hors-distribution en langage, contre 8,0 % pour le décodage parallèle conventionnel, et 20,4 % en vision contre 29,0 % pour la diffusion continue. Pour un intégrateur ou un responsable technique évaluant une stack de manipulation généraliste, c'est un signal que la robustesse hors-distribution peut être préservée sans compromis sur la scalabilité. Les VLA se sont imposés comme paradigme dominant pour la manipulation généraliste, portés par OpenVLA, Octo, puis Pi-0 qui a popularisé la diffusion continue comme tête de décodage séparée, précisément l'architecture remise en question ici. La diffusion discrète, mieux connue dans le domaine du texte (MDLM, DMDM), est ici appliquée aux séquences d'actions robotiques, un transfert non trivial. La quatrième révision du preprint signale un travail en maturation active. Les prochaines étapes probables incluent le scaling sur des datasets larges de type Open X-Embodiment et l'évaluation sur des plateformes humanoïdes, où la gestion de l'incertitude en temps réel sera le vrai critère discriminant.

RechercheOpinion
1 source
« Des dizaines de milliards de robots d’ici 10 à 20 ans » : la prédiction folle de Nvidia
115Frandroid 

« Des dizaines de milliards de robots d’ici 10 à 20 ans » : la prédiction folle de Nvidia

Un cadre dirigeant de Nvidia a affirmé que le nombre de robots sur Terre dépassera un jour celui des êtres humains, prédisant l'émergence de dizaines de milliards d'appareils dans un horizon de dix à vingt ans. Cette déclaration, rapportée par Frandroid, illustre l'ambition vertigineuse avec laquelle le géant américain des semi-conducteurs positionne désormais la robotique physique au coeur de sa stratégie de croissance. L'enjeu dépasse largement la provocation chiffrée : Nvidia cherche à s'imposer comme la colonne vertébrale computationnelle de la prochaine vague industrielle. L'entreprise a déjà lancé Project GR00T, un modèle fondateur pour robots humanoïdes, et sa plateforme Isaac pour la simulation et l'entraînement robotique. Si des dizaines de milliards de robots nécessitent des puces, des logiciels et des infrastructures d'entraînement, Nvidia se retrouve en position de fournisseur incontournable, reproduisant à l'échelle physique le rôle qu'elle joue aujourd'hui dans l'IA générative. Cette prédiction s'inscrit dans une course mondiale où Tesla, Figure AI, 1X Technologies et Boston Dynamics parient tous sur l'humanoides à grande échelle. Les gouvernements chinois et américain y voient un enjeu de souveraineté industrielle. La question n'est donc plus de savoir si les robots envahiront les usines, les entrepôts et les foyers, mais à quelle vitesse, et qui contrôlera la chaîne de valeur, des capteurs aux modèles d'IA embarqués, en passant par les puces qui les font tourner.

RobotiqueOpinion
1 source
OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun
116The Decoder 

OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun

OpenAI relance une division robotique, cinq ans après avoir fermé son équipe initiale dédiée à ce domaine. Selon les informations publiées par The Decoder, cette nouvelle équipe est directement issue du programme de recherche en simulation du monde développé en interne. Sam Altman, PDG d'OpenAI, a exprimé une ambition à long terme claire : offrir à chaque individu un robot personnel capable de répondre à n'importe quel besoin. Dans l'immédiat, les premiers déploiements cibleront la construction d'infrastructures. Ce retour dans la robotique signale une accélération majeure dans la course à l'automatisation physique. Après avoir dominé le domaine logiciel avec ChatGPT et les modèles GPT, OpenAI entend désormais ancrer ses modèles d'intelligence artificielle dans le monde réel. L'enjeu est considérable : des robots capables d'opérer dans des environnements complexes pourraient transformer des secteurs entiers comme la construction, la logistique ou les services à la personne, et redéfinir profondément le marché du travail. OpenAI avait abandonné la robotique en 2021, citant des contraintes de ressources et un recentrage sur les modèles de langage. Depuis, le paysage a radicalement changé : Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus ont intensément développé des robots humanoïdes, attisant l'intérêt des investisseurs. Le fait qu'OpenAI s'appuie sur ses travaux de simulation du monde suggère une approche différente, centrée sur la généralisation des comportements plutôt que sur la programmation spécialisée, une stratégie potentiellement décisive dans cette compétition naissante.

UEL'entrée d'OpenAI dans la robotique physique pourrait accélérer l'automatisation dans des secteurs clés en Europe comme la construction et la logistique, avec des répercussions potentielles sur l'emploi, mais sans impact direct immédiat sur la France ou une réglementation européenne.

RobotiqueOpinion
1 source
Mélange d'horizons dans le découpage en actions
117arXiv cs.RO 

Mélange d'horizons dans le découpage en actions

Des chercheurs ont publié sur arXiv (réf. 2511.19433v2) une approche baptisée Mixture of Horizons (MoH) qui s'attaque à un verrou technique dans les modèles vision-langage-action (VLA) utilisés pour la manipulation robotique. Le problème identifié est le suivant : la longueur du "chunk d'action" (le nombre de pas d'action prédits en une seule passe, appelé horizon) conditionne fortement les performances, mais aucune valeur fixe n'est optimale. Un horizon long donne une meilleure prévision globale du mouvement mais dégrade la précision fine ; un horizon court améliore le contrôle local mais échoue sur les tâches longues. MoH découpe le chunk d'action en plusieurs segments à horizons différents, les traite en parallèle via un transformeur d'action partagé, et fusionne les sorties avec une porte linéaire légère. Appliqué aux politiques pi-0, pi-0.5 (Physical Intelligence) et pi-reg, MoH atteint 99 % de taux de succès moyen sur le benchmark LIBERO en seulement 30 000 itérations d'entraînement, un nouveau state-of-the-art. Le mode d'inférence dynamique, qui sélectionne les actions stables par consensus inter-horizons, délivre un débit 2,5 fois supérieur aux baselines. L'intérêt principal de MoH est sa nature plug-and-play : il s'intègre sans modification architecturale majeure dans tout module d'action à attention complète, avec un surcoût d'entraînement et d'inférence minimal. Pour les équipes qui déploient des VLA en manipulation industrielle ou sur des plateformes humanoïdes, cela signifie qu'elles peuvent améliorer significativement la robustesse sur des tâches mixtes (gestes fins + séquences longues) sans changer leur infrastructure. Le gain de débit est particulièrement pertinent pour le temps réel embarqué, où la latence de prédiction est un facteur limitant concret. Ce travail s'inscrit dans l'essor des VLA issus des travaux de Physical Intelligence (pi-0, sorti fin 2024) et d'OpenVLA, qui ont démontré que le préentraînement multimodal peut accélérer la généralisation en manipulation. Le benchmark LIBERO, issu de recherches en imitation learning, sert de référence standard pour évaluer la transfer et la composition de tâches. Les concurrents directs dans l'espace VLA incluent RoboVLMs de Google DeepMind, OpenVLA-OFT, et les travaux de Carnegie Mellon sur ACT/Diffusion Policy. MoH reste à ce stade une contribution de recherche académique, sans déploiement industriel annoncé, mais sa compatibilité plug-and-play le rend directement utilisable par les équipes qui entraînent déjà sur pi-0 ou des architectures dérivées.

💬 Le problème de l'horizon d'action, c'est un classique en robotique, et personne n'avait vraiment trouvé de sortie propre avant ça. MoH répond avec la bonne idée au bon moment : plusieurs horizons en parallèle, une porte de fusion légère, et tu gardes toute ton infra existante. 99 % sur LIBERO, 2,5x de débit, plug-and-play sur pi-0, bon, sur le papier c'est difficile de trouver à redire.

RechercheOpinion
1 source
ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play
118arXiv cs.RO 

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

ELAN4D est un cadre d'entraînement pour modèles Vision-Language-Action (VLA) publié en preprint arXiv en mai 2026, conçu pour améliorer la robustesse aux perturbations hors-distribution. Le problème central: les VLA actuels comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) réagissent directement aux observations sans modéliser les dynamiques futures, ce qui dégrade leurs performances dès que les conditions changent. ELAN4D injecte une supervision 4D basée sur l'embodiment: à partir des seuls états proprioceptifs du robot, il calcule des trajectoires 3D de points clés (articulations, effecteur terminal) via cinématique directe, sans tracker externe ni reconstruction. Un décodeur léger est ajouté pendant l'entraînement puis retiré à l'inférence, laissant l'interface du modèle de base inchangée. Sur les benchmarks LIBERO, LIBERO-Plus, RoboTwin2.0 et sur des tâches en conditions réelles, ELAN4D surpasse les baselines VLA avec des gains substantiels sous perturbations de caméra, d'arrière-plan et de disposition d'objets. L'atout principal est pragmatique: améliorer un VLA existant sans reconstruction 3D coûteuse ni modification du backbone vision-langage pré-entraîné (les gradients sont isolés pour le préserver), et sans overhead à l'inférence. Ce mode plug-and-play permet d'appliquer l'approche à des modèles existants sans repartir d'une architecture neuve, un avantage direct pour les équipes R&D et les intégrateurs. Le gap de généralisation hors-distribution est l'un des freins majeurs à l'industrialisation des politiques de manipulation, et les gains annoncés sur benchmarks sont potentiellement significatifs si confirmés en déploiement réel. Il convient cependant de tempérer: les résultats sont établis en conditions de laboratoire, sans validation à grande échelle en production. La dynamique de recherche sur les VLA robustes s'est intensifiée depuis pi-0 (Physical Intelligence, octobre 2024) et la popularisation des architectures diffusion policy et action chunking transformer, avec plusieurs équipes explorant des approches concurrentes basées sur les world models vidéo ou la reconstruction 3D. ELAN4D est une contribution purement académique: le preprint ne mentionne ni partenaire industriel ni déploiement en cours. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou multi-bras en environnement industriel réel, sans qu'aucune timeline ne soit annoncée.

RechercheOpinion
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
119arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

RechercheOpinion
1 source
La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles
120Interesting Engineering 

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

NVIDIA a présenté huit travaux de recherche en robotique à l'International Conference on Robotics and Automation (ICRA) 2026, tous centrés sur la réduction du "sim-to-real gap" -- l'écart de performance entre un robot entraîné en simulation et ce même robot confronté au monde physique. Parmi les systèmes mis en avant, COMPASS entraîne des robots exclusivement dans Isaac Lab (le simulateur NVIDIA) avant de transférer les politiques apprises vers des corps physiques différents. Sur 20 essais réels impliquant des robots mobiles autonomes et des humanoïdes, le framework atteint un taux de succès de 80 % en navigation, soit 4,5 fois supérieur aux baselines par imitation learning. Le système Grasp-MPC, dédié à la préhension en environnement encombré, a été entraîné sur 2 millions de trajectoires simulées couvrant 8 000 objets distincts, et atteint 75 % de succès sur des objets inconnus contre 41 % pour les méthodes de référence. Le framework SPARR, appliqué à l'assemblage industriel, découpe la tâche en deux couches -- une politique apprise en sim, corrigée en temps réel sur le hardware réel -- et affiche 38 % de gain sur le taux de succès d'assemblage et 30 % de réduction du temps de cycle par rapport aux baselines zero-shot sim-to-real. Enfin, PEEK améliore l'attention visuelle des robots (filtrage du bruit visuel non pertinent), avec une précision multipliée jusqu'à 41 fois pour des politiques purement simulées. Une collaboration avec Carnegie Mellon, l'Université de l'Utah et l'Université de Sydney a produit SEAL, un framework qui contraint le robot à n'exécuter que les séquences d'actions cohérentes avec son raisonnement planifié. Ces résultats sont significatifs pour les intégrateurs et les décideurs industriels, car ils montrent que le sim-to-real gap -- longtemps considéré comme le verrou structurel de la robotique apprise -- commence à se refermer de façon mesurable, au moins en conditions de laboratoire. Le gain de 30 % sur le temps de cycle (SPARR) est un chiffre qui parle directement aux opérateurs de lignes d'assemblage. Il convient cependant de nuancer : les taux de succès rapportés (75-80 %) sont mesurés dans des protocoles contrôlés par les chercheurs eux-mêmes, sans déploiement industriel validé en production. Les vidéos sélectionnées pour illustrer ces travaux suivent les conventions habituelles des communications académiques, qui ne montrent pas les échecs. La progression reste réelle, mais le passage de 80 % à 99 % de fiabilité -- seuil requis pour la plupart des applications industrielles critiques -- reste un problème ouvert. NVIDIA positionne cette recherche comme la couche logicielle et de simulation de son écosystème robotique plus large, qui inclut Isaac Lab, Isaac GR00T X Embodiment Sim et Omniverse NuRec. La compagnie ne fabrique pas de robots mais ambitionne de devenir l'infrastructure sur laquelle l'industrie entraîne ses systèmes, face à des concurrents comme Google DeepMind (avec ses travaux sur RT-2 et Gemini Robotics), Meta (V-JEPA) et Physical Intelligence (pi0). Sur le segment de la simulation pour la robotique, des acteurs comme Mujoco (DeepMind) et Genesis (MIT/CMU) occupent également le terrain. Les prochaines étapes annoncées par NVIDIA passent par l'extension des datasets ouverts et la montée en échelle des plateformes de simulation, sans timeline de commercialisation précisée pour les frameworks présentés à l'ICRA.

UELes intégrateurs industriels européens en robotique d'assemblage pourraient à terme bénéficier des frameworks sim-to-real NVIDIA (Isaac Lab, SPARR), mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le 30% de gain sur le temps de cycle, c'est le seul chiffre qui va faire bouger un décideur industriel. NVIDIA ne fabrique pas de robots mais joue exactement le même coup qu'avec les GPU : devenir l'infrastructure incontournable avant que le marché soit mature, face à DeepMind, Meta et les autres. Reste que passer de 80% à 99% de fiabilité, le vrai seuil pour les lignes critiques, c'est encore une autre histoire.

RobotiquePaper
1 source
Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire
121arXiv cs.RO 

Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire

Une étude publiée sur arXiv en mai 2026 (réf. 2605.28726) remet en question une hypothèse largement répandue dans le déploiement des politiques robotiques VLA : le contrôle de vitesse constituerait un indicateur fiable de défaillance motrice. Les chercheurs ont soumis trois architectures VLA majeures, VQ-BeT (tokens discrets), Diffusion Policy et ACT (architectures continues), à un protocole unifié de 450 épisodes sur deux plateformes : PushT et ALOHA, ce dernier couvrant la manipulation bimane à 14 degrés de liberté. Premier résultat : le taux d'inversion de direction est le seul prédicteur universel de défaillance, avec des AUROC de 0,93, 0,79 et 0,91 selon l'architecture (p < 0,001). Le monitoring des à-coups (jerk) se révèle prédictif uniquement pour les architectures à tokens discrets, avec un gradient décroissant de 0,88 à 0,41 en passant aux architectures continues. Le contrôle de vitesse, lui, affiche des AUROC entre 0,41 et 0,52 sur les architectures continues, soit un niveau proche du hasard. Ces résultats ont une portée directe pour les équipes de déploiement : le contrôle de vitesse est actuellement le mécanisme de sécurité le plus répandu dans les bases de code VLA en production, et il s'avère inefficace pour détecter une défaillance imminente sur les architectures continues (AUROC 0,52 sur ACT, 0,41 sur Diffusion Policy). L'étude établit que les familles discrètes et continues produisent des signatures de défaillance qualitativement différentes, et qu'aucun moniteur unique ne peut couvrir les deux. Pour un intégrateur ou un COO déployant un humanoïde ou un bras collaboratif en cellule de production, un indicateur de sécurité mal calibré représente un risque opérationnel concret, pas une nuance académique. La distinction discret/continu dans les VLA est connue depuis les travaux fondateurs sur ACT (Zhao et al., 2023) et Diffusion Policy (Chi et al., 2023), mais ses implications sur le monitoring n'avaient pas été quantifiées à cette échelle. L'étude repose sur SafeContract, un toolkit open source de surveillance en boîte noire sans réentraînement, avec calibration conforme, accessible sur GitHub (krishnam94/vla-edge). Les acteurs déployant aujourd'hui des architectures continues, notamment Figure AI avec Figure 03, Physical Intelligence avec son modèle π0, ou Boston Dynamics, sont directement concernés par ces résultats. La prochaine étape logique est l'intégration de moniteurs architecture-spécifiques dans les pipelines de validation sim-to-real, en amont de toute mise en production sur site.

UELes intégrateurs et équipes R&D européens déployant des architectures VLA continues (ACT, Diffusion Policy) doivent auditer leurs mécanismes de surveillance de sécurité, le contrôle de vitesse, mécanisme dominant en production, s'avérant quasi-aléatoire pour détecter les défaillances sur ces architectures.

💬 Le contrôle de vitesse comme indicateur de sécurité sur les VLA continus, c'est à peu près aussi fiable que tirer à pile ou face. Ce n'est pas une petite subtilité académique : c'est le mécanisme le plus déployé en production aujourd'hui, et il détecte les défaillances imminentes avec un AUROC de 0,41 sur Diffusion Policy. Reste à voir combien d'intégrateurs vont vraiment auditer leurs pipelines après ça, mais l'étude arrive au bon moment, avec un toolkit open source en bonus.

RobotiqueOpinion
1 source
POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle
122arXiv cs.RO 

POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle

Des chercheurs ont publié POINav, un benchmark et un cadre applicatif destinés à résoudre le problème dit des "derniers mètres" dans la navigation guidée par langage naturel vers des points d'intérêt (POI). POINav-Bench, présenté comme le premier benchmark dédié à l'évaluation en boucle fermée de ce type de navigation, s'appuie sur 11 zones commerciales reconstituées en 3D à partir de captures réelles via 3D Gaussian Splatting (3DGS), couvrant au total 126 398 m² et 163 POI distincts. Les auteurs publient également un jeu de données associé, POINav-Dataset, contenant 70 000 paires signalétique/entrée issues du monde réel, ainsi qu'un framework Brain-Action où un module "Brain" effectue un raisonnement ancré sur les POI pour guider un module "Action" chargé de prédire des waypoints continus exécutables sur robot physique. Ce travail s'attaque à un angle mort documenté des benchmarks existants en Vision-Language Navigation (VLN) : la granularité trop grossière des objectifs et l'écart sim-to-real dû aux scènes générées synthétiquement. En reconstruisant des environnements commerciaux réels avec annotations de traversabilité et trajectoires de référence, POINav-Bench offre un protocole d'évaluation plus représentatif des conditions opérationnelles. Pour les intégrateurs et les équipes R&D robotique, c'est pertinent : la navigation vers un POI précis (une caisse, une porte spécifique, un poste de travail) reste un verrou concret dans les déploiements AMR et humanoïdes en environnement non structuré. Le problème des "derniers mètres" est bien identifié dans la communauté VLN depuis plusieurs années, mais les benchmarks de référence comme R2R ou VLN-CE restaient limités par leurs environnements simulés. La reconstruction par 3DGS, popularisée depuis 2023, permet ici de contourner ce biais sans mobiliser des flottes de capteurs industriels. Les concurrents directs sur ce segment incluent NavMesh-based evaluation pipelines et les travaux récents autour de EmbodiedScan ou ScanQA. L'article ne mentionne ni partenaires industriels ni timeline de déploiement, il s'agit d'une contribution académique publiée sur arXiv. Les prochaines étapes naturelles seraient une validation sur plateforme physique, les expériences rapportées restant pour l'instant confinées au cadre de simulation reconstruite.

💬 Le problème des derniers mètres, toute équipe robotique qui a essayé de déployer un AMR dans un vrai entrepôt l'a vécu. Ce que POINav apporte, c'est un benchmark sur des environnements réels reconstruits en 3DGS, pas des salles simulées propres qui ne ressemblent à rien sur le terrain. Ça reste académique pour l'instant, mais les 70 000 exemples de signalétique réelle dans le dataset, c'est le genre de ressource qui manquait.

RecherchePaper
1 source
Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique
123arXiv cs.RO 

Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique

Une équipe de chercheurs a publié le 28 mai 2026 (arXiv:2605.28812) une nouvelle représentation tactile baptisée Centre de Pression (CoP, pour Center-of-Pressure), qui permet un transfert sim-to-real zéro-shot sur une main robotique multi-doigts pour des tâches de contact intensif. Les deux scénarios de validation retenus sont représentatifs de cas industriels difficiles : l'insertion de type cheville-trou (peg-in-hole) et l'équilibrage d'une balle sur les doigts. La méthode repose sur une calibration des capteurs tactiles via la dynamique différentiable, permettant d'estimer l'orientation de chaque taxel (l'équivalent tactile d'un pixel) sans mesures de force de référence. Les résultats montrent que les politiques conditionnées sur CoP surpassent deux baselines classiques : le contact binaire grossier et les taxels bruts non traités. Le verrou que CoP cherche à lever est bien identifié dans le domaine : le sim-to-real gap pousse la majorité des approches actuelles à réduire les données tactiles à des signaux bas-dimensionnels, sacrifiant la richesse nécessaire aux manipulations précises. CoP change l'équation en ancrant la représentation dans des principes physiques rigoureux plutôt que dans des heuristiques d'ingénierie, préservant la densité d'information tout en maintenant la robustesse au transfert. Un résultat secondaire notable : les politiques apprennent à encoder des propriétés physiques comme la masse de l'objet tenu de façon émergente, sans supervision explicite. Pour les intégrateurs et les équipes de robotique d'assemblage, cela ouvre la perspective de rendre compétitif l'apprentissage par renforcement en simulation pour des tâches de précision, sans collecter des milliers d'heures de données réelles. Ce travail s'inscrit dans une compétition académique soutenue autour de la manipulation dextère tactile, où plusieurs groupes de recherche (Berkeley, CMU, MIT, ETH Zurich) ont progressé sur le sim-to-real pour les capteurs de contact en 2024-2025, sans atteindre le transfert zéro-shot sur une main complète multi-doigts. Côté industriel, Shadow Robot (Royaume-Uni) reste la référence sur les mains tactiles à haute dextérité, tandis que Figure AI et Apptronik misent sur la manipulation corps entier dans des humanoïdes généralistes. Ce papier est un résultat académique : pas de prototype commercial ni de calendrier industriel annoncé, mais la validation sur peg-in-hole, benchmark historique en robotique d'assemblage, et sur une tâche dynamique d'équilibrage renforce sa crédibilité pour les équipes R&D en fabrication avancée.

UEAucun acteur européen n'est directement impliqué, mais les équipes R&D européennes en fabrication avancée (assemblage, manipulation de précision) pourraient exploiter cette méthode pour réduire leur dépendance aux données tactiles réelles coûteuses.

RobotiquePaper
1 source
Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)
124arXiv cs.RO 

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

Une étude déposée sur arXiv (2605.24642) analyse rigoureusement l'intégration des modèles de fondation géométriques (GFM) dans les modèles vision-langage-action (VLA) pour la robotique de manipulation. Les chercheurs ont choisi comme sujets d'étude GR00T N1.5, le VLA de NVIDIA dédié aux robots humanoïdes, et VGGT, un GFM spécialisé dans la reconstruction 3D multi-vues. À l'aide d'une technique de sondage linéaire (linear probing), ils ont quantifié pour la première fois ce qu'ils nomment le "geometric gap" : l'écart mesurable entre la représentation spatiale d'un GFM et celle d'un VLA contemporain. Trois architectures distinctes d'injection de la géométrie dans un VLA ont ensuite été implémentées et comparées, avec des détails bas niveau maintenus constants pour assurer l'équité expérimentale. L'équipe a également mesuré l'impact de facteurs non-architecturaux : volume de données d'entraînement, nombre de caméras utilisées, et qualité de la reconstruction 3D résultante. Ce travail répond à une question que beaucoup de praticiens esquivaient : les VLAs actuels "voient-ils" vraiment en 3D, ou s'appuient-ils sur des corrélations 2D apprises statistiquement ? La réponse est formellement négative. L'analyse quantitative démontre que les VLAs de dernière génération, y compris GR00T N1.5, manquent de représentations géométriques structurées, ce qui constitue un frein identifiable pour les tâches de manipulation fine en environnement non contrôlé. Pour les intégrateurs et les équipes R&D, cela valide l'hypothèse justifiant les architectures hybrides géométriques, tout en fournissant une méthodologie d'évaluation reproductible plutôt qu'une démonstration isolée, souvent peu généralisable. Les VLAs ont connu une accélération marquée depuis 2023, avec Physical Intelligence (pi0), Google DeepMind (RT-2) et NVIDIA (GR00T N1 puis N1.5, disponible depuis début 2025) qui rivalisent sur les benchmarks de manipulation. VGGT s'inscrit dans une vague de GFMs récents visant à fournir une compréhension 3D dense sans LiDAR. Cette étude s'intègre dans une tendance plus large : combler le sim-to-real gap par une modélisation spatiale explicite plutôt que par un simple scaling de données. Les suites logiques incluent l'extension de cette analyse comparative à d'autres paires VLA/GFM, et la validation sur robots physiques des trois architectures proposées pour trancher sur laquelle produit le meilleur transfer vers les tâches réelles.

UEImpact indirect : la méthodologie de linear probing et la quantification du 'geometric gap' sont directement réutilisables par les équipes R&D européennes (INRIA, CEA-List, startups VLA) pour évaluer et améliorer leurs propres architectures hybrides avant validation sur robot physique.

💬 Ce que tout le monde dans la communauté robotique savait intuitivement, c'est maintenant mesuré proprement : les VLAs actuels, GR00T inclus, ne "voient" pas vraiment en 3D. La vraie valeur de ce papier, c'est moins la conclusion (qu'on pressentait) que la méthodologie, le linear probing pour quantifier le geometric gap est directement réutilisable par n'importe quelle équipe R&D sans repartir de zéro. Reste à voir laquelle des trois architectures d'injection tient face à du hardware physique réel, parce que les benchmarks en sim, on connaît la chanson.

RechercheOpinion
1 source
L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables
125IEEE Spectrum AI 

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Wetour Robotics avance que le prochain saut architectural de l'IA physique ne viendra pas des robots eux-mêmes, mais de la façon dont les humains leur communiquent leurs intentions. La startup a développé une approche qu'elle nomme Spatial Intent Fusion : la fusion en temps réel de trois flux d'information centrés sur l'humain, à savoir la position spatiale du corps, le contexte visuel capté par la caméra, et l'intention gestuelle détectée via capteurs musculaires. Ces trois canaux sont traités simultanément par une plateforme matérielle appelée Orchestra, un hub portable embarqué sur processeur NVIDIA Jetson Orin Nano Super, capable d'exécuter l'intégralité de la boucle de contrôle en local, sans dépendance au cloud. Le résultat est traduit en commandes directes pour n'importe quel appareil physique connecté, avec une latence assez basse pour que le système réponde comme une extension naturelle du corps. L'enjeu est concret : les interfaces actuelles, écrans, boutons et commandes vocales, supposent que l'utilisateur peut s'arrêter, regarder vers le bas et formuler une instruction structurée. Cette hypothèse s'effondre dès que le travail se déroule dans un environnement réel. Un technicien de maintenance sur une éolienne, harnais accroché et les deux mains sur une clé, n'a pas la liberté de consulter un écran. Un opérateur logistique sur un quai de chargement, les yeux sur la palette et les mains gantées, ne peut pas dicter une commande vocale dans le bruit ambiant. Une personne en fauteuil motorisé dans une rue animée veut ajuster sa trajectoire sans sortir son téléphone. Pour Wetour Robotics, chaque canal observé isolément, un geste seul, un regard seul, reste ambigu. C'est la fusion de ces canaux au niveau système, avec une inférence d'intention robuste, qui rend l'interface fiable dans des conditions dégradées. Cette approche s'inscrit dans un constat plus large que l'industrie commence à formuler. Depuis trois ans, les progrès côté robot ont été spectaculaires : Boston Dynamics, Figure, Unitree ont repoussé les limites de la locomotion et de la dextérité, tandis que Google DeepMind a redéfini ce que les modèles vision-langage-action peuvent accomplir en environnement non structuré. Mais la boucle humain-machine n'a pas évolué au même rythme. Les mêmes trois modalités d'entrée dominent depuis quarante ans. Wetour Robotics parie que le vrai goulot d'étranglement se situe désormais du côté humain, et que faire de l'opérateur un noeud à part entière du réseau de calcul, avec la même qualité de participation que les capteurs embarqués sur le robot, constitue le prochain levier de performance. Le positionnement commercial de la société résume l'ambition en une formule : votre corps est l'interface.

RobotiqueActu
1 source
Robot moonwalk façon Michael Jackson : le fiasco
126Le Big Data 

Robot moonwalk façon Michael Jackson : le fiasco

Une vidéo devenue virale le 20 mai 2026 montre un robot humanoïde s'effondrer sur scène en pleine démonstration de danse, devant un public en direct. La machine avait été mise en scène pour interpréter quelques pas sur "Billie Jean" de Michael Jackson, le titre emblématique sorti en 1982. Les premières secondes sont convaincantes : le robot balance les bras, enchaîne quelques mouvements rythmés et tente même une ébauche de moonwalk. Puis la scène bascule. L'humanoïde heurte une marche sur le plancher de la scène, vacille, semble se stabiliser, le public retient son souffle. Puis, quelques secondes plus tard, il retourne exactement au même endroit, percute à nouveau le même obstacle et s'effondre lourdement, immobile, avant d'être évacué hors scène. Ce type d'incident illustre un problème structurel que l'industrie robotique peine encore à résoudre : l'écart entre la performance scénarisée et l'adaptabilité réelle. Les démonstrations virales de robots donnent souvent l'impression d'une maîtrise presque humaine de l'espace et du mouvement. En réalité, ces séquences reposent la plupart du temps sur des routines préprogrammées exécutées dans des conditions parfaitement contrôlées. Une marche sur une scène, un objet déplacé de quelques centimètres, un obstacle non prévu dans le code : il suffit d'un seul élément inattendu pour que les limites apparaissent sans ambiguïté. Ce n'est pas un problème de puissance de calcul ni de mécanique, mais de perception et d'adaptation en temps réel à un environnement non modélisé. La robotique humanoïde avance à un rythme soutenu depuis quelques années, portée par des acteurs comme Boston Dynamics, Figure AI, Agility Robotics ou encore Unitree, qui multiplient les démonstrations spectaculaires. Mais la plupart des cas d'usage concrets restent limités à des environnements industriels très structurés, où chaque variable est anticipée. Déployer un robot dans un espace quotidien, qu'il s'agisse de ranger des objets épars, de naviguer dans une maison ou de réagir à une foule, reste un défi considérable. Les investissements dans le secteur atteignent des montants records, plusieurs milliards de dollars levés en 2024-2025 rien qu'aux États-Unis, mais la promesse d'un robot véritablement autonome face à l'imprévu reste encore hors de portée. Cette chute sur scène, anecdotique en apparence, résume en quelques secondes le principal obstacle du domaine.

RobotiqueOpinion
1 source
Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse
127Le Big Data 

Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse

Le robot humanoïde G1 du fabricant chinois Unitree Robotics vient de franchir une nouvelle étape lors d'une démonstration publiée le 19 mai 2026 : l'engin réagit désormais à des commandes vocales en temps réel, générant ses mouvements de manière autonome grâce à une intelligence artificielle embarquée directement sur la machine. La vidéo, tournée en une seule prise avec l'audio capté sur place, montre le G1 interpréter des instructions orales et produire les actions correspondantes presque instantanément, sans animations préprogrammées. Une légère latence reste perceptible, mais l'absence de montage agressif ou de coupures suspectes rend la démonstration particulièrement crédible dans un secteur où les mises en scène trompeuses sont monnaie courante. Le G1 est commercialisé à partir de 13 500 dollars, et Unitree prévoit de produire entre 10 000 et 20 000 unités en 2026. Cette capacité à interpréter le langage naturel pour générer des actions physiques en temps réel représente un saut qualitatif majeur pour les robots humanoïdes. Jusqu'ici, la plupart des démonstrations grand public reposaient sur des séquences précodées déclenchées par des mots-clés précis, loin d'une véritable interaction spontanée. Le fait que le G1 adapte ses mouvements selon des instructions variables rapproche l'expérience d'un usage réel dans un environnement domestique ou professionnel. Pour les industries ciblant l'assistance à la personne, la logistique ou les environnements non structurés, ce type de contrôle vocal fluide change concrètement l'équation de déploiement. Quant au prix, 13 500 dollars tranche radicalement avec des concurrents comme Boston Dynamics ou Figure AI, dont les modèles dépassent facilement plusieurs dizaines ou centaines de milliers de dollars. Unitree Robotics s'est imposé ces dernières années comme l'un des acteurs les plus agressifs du marché de la robotique humanoïde, multipliant les démonstrations de capacités physiques remarquables à des prix délibérément bas. La stratégie semble claire : occuper le terrain avant que les géants de la tech, notamment Tesla avec Optimus ou les startups bien financées de la Silicon Valley, ne dominent un marché encore ouvert. L'annonce d'une production de masse entre 10 000 et 20 000 unités cette année signale un passage du stade de prototype à celui de produit industriel. L'intégration de la voix comme interface principale d'interaction, combinée à une IA embarquée capable de générer des mouvements à la volée, ouvre la voie à des robots utilisables sans formation technique. La prochaine bataille se jouera probablement sur la fiabilité en conditions réelles et sur la richesse du vocabulaire d'actions disponibles, deux fronts sur lesquels aucun acteur ne peut encore revendiquer une victoire définitive.

RobotiqueOpinion
1 source
COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés
128arXiv cs.RO 

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Des chercheurs ont publié sur arXiv (arXiv:2605.17144) une méthode d'inférence baptisée COAST, Contrastive Conceptor Activation Steering, conçue pour améliorer les performances des modèles Vision-Language-Action (VLA) sans nécessiter aucun réentraînement. Le constat de départ est documenté mais rarement quantifié aussi clairement : malgré un pré-entraînement massif sur des corpus web (images, texte, vidéo), les VLA échouent fréquemment sur des tâches robotiques élémentaires. COAST construit ce qu'on appelle des "conceptors", des opérateurs linéaires qui projettent les données vers les composantes principales d'une distribution cible. En pratique, on fournit au système quelques trajectoires de succès et d'échecs pour une tâche donnée ; COAST en extrait des sous-espaces d'activation critiques pour le succès, puis oriente les états latents du modèle vers ces sous-espaces au moment de l'inférence. Testée sur trois architectures distinctes, VLA à flow-matching, VLA autorégressif et Diffusion Policy, la méthode améliore le taux de succès absolu de plus de 20 points en simulation et de plus de 40 points sur robot réel. Ces chiffres sont significatifs parce qu'ils suggèrent que les VLA actuels encodent déjà une connaissance pertinente pour la tâche dans leurs représentations internes, mais qu'un goulot d'étranglement dans le décodage de l'action empêche cette connaissance de se traduire en comportement fiable. COAST contourne ce problème sans toucher aux poids du modèle, ce qui le rend compatible avec n'importe quel VLA déployé. Autre observation structurelle importante : les modes d'échec partagent une géométrie commune entre tâches différentes, alors que les représentations de succès restent largement spécifiques à chaque tâche. Cette asymétrie permet de réutiliser des conceptors calibrés sur une tâche pour améliorer les performances sur une tâche nouvelle, sans recalibration. Le travail s'inscrit dans un courant plus large de recherche sur le pilotage des représentations internes (activation steering), initialement développé dans le domaine de l'interprétabilité mécanistique des LLM. Côté robotique, les VLA de référence incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, tous confrontés à ce même écart entre performance en démo et robustesse en déploiement réel. COAST ne rivalise pas avec ces modèles mais s'y greffe en post-traitement. Les auteurs n'annoncent pas de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche, dont la prochaine étape naturelle serait une validation sur des tâches longue-horizon et sur des plateformes humanoïdes à haute dimensionnalité.

💬 +40 points sur robot réel sans retraining, c'est le genre de résultat qui me fait relire le papier deux fois. L'idée centrale est solide : les VLA encodent déjà ce qu'il faut savoir, c'est le passage vers l'action motrice qui bloque, et COAST règle ça en orientant les activations internes au bon endroit. Bon, on est encore loin du déploiement industriel, mais si tu bosses avec Pi-0 ou GR00T en ce moment, cette méthode se greffe directement sur ce que t'as.

RechercheOpinion
1 source
DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles
129arXiv cs.RO 

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

RobotiqueOpinion
1 source
L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America
130AI News 

L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America

La conférence TechEx North America a réuni cette année des représentants de l'industrie autour d'une question centrale : que faut-il construire autour de l'IA avant qu'elle puisse réellement s'intégrer dans le monde physique et les environnements d'entreprise ? Organisée en quatre grandes pistes thématiques, Edge Computing, IoT, Data Centre Congress et Cybersécurité, l'événement a mis en avant des intervenants de Schneider Electric, Akamai, Spectro Cloud, Siemens, LG CNS, Boston Dynamics, Rockwell Automation ou encore Ford. Ed Doran, de l'Edge AI Foundation, a présidé la piste edge computing, dont le programme couvrait le déploiement multi-sites, l'inférence distribuée (on-premise, cloud ou hybride), les opérations réseau agentiques et l'application des principes zero-trust aux systèmes de contrôle industriel. La piste IoT industriel a, elle, abordé les usines intelligentes, la gestion d'actifs, l'IA au-delà de l'Industrie 4.0 et les jumeaux numériques. Le constat qui a dominé les échanges tient en deux mots devenus un leitmotiv du salon : "pilot purgatory". Ce phénomène désigne le gouffre entre une démonstration convaincante en salle de conférence et un déploiement réel qui tient la route face aux machines vieillissantes, aux logiciels patrimoniaux et aux organisations peu préparées. La session commune de Rockwell Automation et Ford sur l'IA physique et l'intelligence des actifs connectés a particulièrement insisté sur ce point : comment fait-on entrer l'intelligence dans les opérations quotidiennes sans qu'elle devienne un tableau de bord de plus que personne ne consulte ? Les jumeaux numériques ont subi le même examen critique, plusieurs intervenants ont plaidé pour des modèles opérationnels capables d'améliorer concrètement la maintenance et d'anticiper les décisions, plutôt que de simples répliques visuelles d'installations. Ces débats s'inscrivent dans un moment charnière pour l'industrie : l'IA générative a démontré sa valeur dans les environnements de bureau, mais son transfert vers les environnements industriels se heurte à des contraintes radicalement différentes, latence, fiabilité, sécurité des systèmes de contrôle et consommation énergétique. La piste Data Centre Congress a illustré cette dernière tension avec acuité, en mettant sur la table les crises de construction, les problèmes d'approvisionnement en électricité, le refroidissement et les besoins en réseau des futurs datacenters dédiés à l'IA. Le message transversal de TechEx North America est que les systèmes intelligents, qu'ils soient enfouis dans un site industriel ou déployés dans un back-office, doivent être conçus en cohérence avec les personnes et les machines qu'ils sont censés servir, sous peine de rester des promesses sans lendemain.

UELa présence de Schneider Electric et Siemens parmi les intervenants principaux illustre le rôle des entreprises européennes dans la définition des standards de déploiement de l'IA industrielle à l'échelle mondiale.

InfrastructureActu
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
131Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

RobotiqueOpinion
1 source
Vous vous souvenez du robot Figure 03 ? Il travaille maintenant 40 heures d’affilée
132Le Big Data 

Vous vous souvenez du robot Figure 03 ? Il travaille maintenant 40 heures d’affilée

Le robot humanoïde Figure 03, développé par la startup américaine Figure AI, vient de réaliser une démonstration marquante dans le secteur de la logistique : plus de 40 heures de tri de colis en continu, sans interruption ni assistance humaine. Cette performance a été rendue possible grâce à Helix-02, le nouveau réseau neuronal maison qui pilote les capacités du robot durant ces longues sessions de travail. Figure AI précise que le système est capable de détecter ses propres erreurs et de reprendre automatiquement une tâche interrompue. La gestion des batteries est également automatisée, plusieurs unités fonctionnant en relais pour garantir une continuité opérationnelle. Parallèlement, l'entreprise annonce avoir expédié 350 robots depuis son usine BotQ de Sunnyvale, en Californie, à un rythme de production d'environ un robot par heure. Ce qui change avec cette démonstration, c'est le déplacement du curseur dans la robotique industrielle : il ne s'agit plus de prouver qu'un humanoïde peut saisir un objet sans le faire tomber, mais qu'il peut tenir un poste de travail pendant des dizaines d'heures dans un environnement réel. Pour les entrepôts logistiques, la chaîne d'approvisionnement et les usines qui tournent en 3x8, cette endurance autonome représente le véritable verrou technologique à franchir. Un robot capable de travailler 40 heures sans supervision humaine n'est plus un prototype de laboratoire : c'est un candidat sérieux au remplacement de postes pénibles, répétitifs et difficiles à pourvoir. La question économique devient alors très concrète pour les opérateurs logistiques. Figure AI a été fondée en 2022 seulement, par Brett Adcock, et s'est imposée à une vitesse surprenante dans une course dominée par des acteurs établis comme Boston Dynamics ou Tesla, dont le robot Optimus reste une référence dans le secteur. La société a multiplié les démonstrations ces derniers mois, dont une vidéo montrant le Figure 03 ranger une chambre avec des gestes fluides et adaptés à l'environnement, cherchant à distinguer ses robots des démos très contrôlées qui ont souvent entaché la crédibilité du secteur. La prochaine étape sera d'ordre commercial et opérationnel : transformer ces démonstrations en déploiements industriels durables, avec des contrats clients, une maintenance à l'échelle, et des garanties de fiabilité sur le long terme. C'est là que se jouera la vraie bataille entre les prétendants à la robotique humanoïde de masse.

UELes opérateurs logistiques et industriels européens (entrepôts, chaînes d'approvisionnement, usines 3x8) devront intégrer l'émergence de robots humanoïdes autonomes dans leur planification stratégique à moyen terme.

💬 40 heures en continu sans personne dans la boucle, c'est le truc qui change vraiment l'équation. Jusqu'ici les demos robotique c'était "regarde il attrape une balle", là on parle d'endurance en condition réelle, avec gestion autonome des batteries et reprise d'erreur, dans un entrepôt qui tourne. Reste à voir ce que ça donne avec la maintenance à l'échelle, parce qu'un robot par heure sorti d'usine c'est ambitieux, et les promesses de Figure AI méritent encore qu'on les regarde tourner 6 mois avant de signer des contrats.

RobotiqueOpinion
1 source
Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes
133Le Big Data 

Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes

Fondée en 2016 à Hangzhou par Wang Xingxing, Unitree Robotics s'est imposée comme l'un des acteurs les plus actifs de la robotique mobile en Chine. Partie de travaux sur la locomotion quadrupède, l'entreprise a rapidement commercialisé une gamme de robots destinés à la recherche et à l'ingénierie, dont les modèles Laikago et AlienGo, conçus pour valider le contrôle moteur et la stabilité dynamique. Elle a ensuite lancé la gamme Go, avec le Go1 puis le Go2, des robots quadrupèdes intégrant navigation autonome, perception multi-capteurs et traitement embarqué en temps réel. Ces machines sont capables d'évoluer sur des surfaces variées, en intérieur comme en extérieur, et d'adapter leur déplacement à des environnements non structurés. Unitree développe également des robots humanoïdes centrés sur la locomotion bipède, élargissant ainsi son périmètre au-delà des quatre pattes. L'impact de ces développements est double. D'un côté, Unitree a contribué à démocratiser l'accès aux robots quadrupèdes en abaissant significativement les coûts par rapport aux solutions concurrentes, ce qui a permis à des laboratoires universitaires, des équipes de recherche et des développeurs indépendants d'expérimenter à moindre coût sur des plateformes matérielles réelles. De l'autre, la qualité des modèles Go en termes de stabilité et de perception a accéléré les travaux sur la locomotion autonome et la navigation en environnement réel, deux briques fondamentales pour les futures applications industrielles et urbaines de la robotique mobile. Le contexte dans lequel Unitree s'est développée est celui d'une compétition mondiale intense autour de la robotique incarnée, avec Boston Dynamics comme référence technique historique côté américain et un écosystème chinois en pleine montée en puissance soutenu par des financements publics et privés massifs. Wang Xingxing a choisi une approche pragmatique, privilégiant l'intégration matérielle maîtrisée et l'accessibilité commerciale plutôt que la démonstration spectaculaire. Cette stratégie a permis à Unitree de construire une base d'utilisateurs réelle dans la recherche et l'éducation, tout en préparant le terrain vers des marchés plus larges comme la surveillance, l'inspection industrielle ou l'assistance en environnement urbain. Le virage vers les humanoïdes, visible dans les démonstrations récentes, s'inscrit dans la même logique : capitaliser sur l'expertise en locomotion pour adresser les usages où la forme bipède devient un avantage opérationnel.

RobotiqueOpinion
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
134arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

RobotiqueActu
1 source
Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées
135arXiv cs.RO 

Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées

Des chercheurs ont publié sur arXiv (référence 2506.01568, version 3) une méthode nommée "Trajectory First", un curriculum d'entraînement en deux étapes conçu pour produire des politiques comportementales diversifiées en apprentissage par renforcement (RL). La contribution centrale est l'introduction d'un a priori de trajectoires splines comme biais inductif durant la première phase : ce prior géométrique guide l'exploration de l'espace des comportements, permettant de générer un ensemble de stratégies à haute récompense mais distinctes. La seconde phase distille ces comportements en politiques réactives pas-à-pas, utilisables en temps réel. Les expériences valident l'approche sur des tâches de manipulation robotique en simulation, domaine où les méthodes de diversité contrainte existantes montrent des lacunes d'exploration marquées. La diversité comportementale est un enjeu opérationnel concret pour les intégrateurs et les équipes de robotique industrielle : un robot capable de saisir un objet selon plusieurs stratégies est nettement plus robuste aux variations de position, d'éclairage ou de géométrie qu'un système limité à une unique politique apprise. Les cadres actuels d'optimisation de diversité contrainte, malgré leurs progrès théoriques, convergent fréquemment vers des optima locaux en manipulation dextre, bridant la robustesse effective des systèmes en production. "Trajectory First" propose une voie pour contourner cette limite sans sacrifier la performance sur la tâche principale, ce qui est précisément le compromis clef que la communauté cherche à résoudre depuis plusieurs années. L'approche ne nécessite pas d'entraînement spécifique à chaque configuration, ce qui renforce sa portée généraliste. L'optimisation de diversité en RL s'est structurée autour de paradigmes comme Quality-Diversity (QD-RL), MAP-Elites, DIAYN ou DADS, qui peinent tous sur des espaces d'action continus à horizon long. "Trajectory First" s'inscrit dans un courant combinant curriculum learning et représentations géométriques du mouvement pour améliorer l'exploration initiale avant de contraindre la politique finale. Cette publication est une contribution de recherche fondamentale, validée en simulation uniquement, sans déploiement industriel ni partenaires commerciaux annoncés. Les extensions naturelles incluent le transfert sim-to-real et la manipulation bimanuelle, deux axes très actifs dans les laboratoires académiques (Inria, ETH Zurich, CMU) comme chez les acteurs industriels tels que Physical Intelligence (Pi-0), Covariant ou le Boston Dynamics AI Institute.

RecherchePaper
1 source
Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots
136arXiv cs.RO 

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

Des chercheurs ont publié sur arXiv (2603.17510v2) une architecture permettant à un robot mobile de naviguer en environnement partagé en tenant compte des préférences exprimées en langage naturel par ses utilisateurs. Le système repose sur trois couches distinctes : un modèle vision-langage (VLM) qui analyse en continu les images de la caméra embarquée pour extraire un contexte environnemental structuré, un grand modèle de langage (LLM) qui traduit les retours verbaux des utilisateurs en règles comportementales interprétables, stockées dans une mémoire persistante et modifiable, puis un module de traduction des préférences qui convertit ces règles et ce contexte en vecteurs numériques injectés à la volée dans une politique de navigation par apprentissage par renforcement multi-objectif (MORL) préentraînée. L'évaluation couvre des déploiements réels dans plusieurs environnements intérieurs, une étude utilisateur et des mesures quantitatives par composant, sans que l'abstract précise les effectifs ni les métriques chiffrées de performance. Ce travail adresse un verrou concret pour les déploiements en milieu professionnel : aujourd'hui, un robot de livraison intérieure ou un AMR logistique optimise vitesse et sécurité selon des paramètres fixes, incapable d'adapter son comportement si un opérateur lui dit "ralentis dans la zone de picking" ou "évite le couloir principal le matin". L'architecture proposée résout ce problème sans réentraînement : la mémoire de règles est mise à jour à chaud via langage naturel, ce qui réduit dramatiquement le coût d'intégration pour un déploiement B2B. La séparation claire entre raisonnement sémantique de haut niveau (VLM/LLM) et contrôle temps-réel (MORL) est également un argument industriel sérieux, car elle permet de changer le backbone LLM sans toucher à la politique de bas niveau. Ce type d'approche s'inscrit dans une tendance académique forte depuis 2023 : l'utilisation de fondational models comme couche d'interprétation au-dessus de politiques de contrôle classiques, popularisée notamment par les travaux sur les VLA (Vision-Language-Action models) chez Google DeepMind ou Stanford. La différence ici est la persistance explicite des règles en mémoire et l'utilisation de MORL plutôt que d'une politique end-to-end, ce qui offre davantage de contrôle et de transparence. Aucun partenaire industriel ni timeline de commercialisation ne sont mentionnés, ce travail restant pour l'instant une contribution de recherche. La prochaine étape naturelle serait de valider le système sur des robots commerciaux comme le Spot de Boston Dynamics ou des AMR de Locus Robotics, et d'étendre les expériences aux environnements extérieurs ou aux contextes multi-utilisateurs.

RechercheOpinion
1 source
Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs
137Robotics Business Review 

Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs

Hello Robot a annoncé le 12 mai 2026 la disponibilité immédiate de Stretch 4, la quatrième génération de sa plateforme de manipulation mobile à usage général, au prix de 29 950 dollars. Le robot conserve l'architecture distinctive de la gamme, bras télescopique, base omnidirectionnelle, mais intègre une refonte complète selon les termes de Charlie Kemp, co-fondateur et CTO. L'enveloppe sensorielle est significativement enrichie : deux lidars 3D hémisphériques, trois caméras haute résolution, six capteurs laser linéaires et des caméras fisheye RGB à obturateur global couvrent l'environnement à 360 degrés, réduisant drastiquement les angles morts même lorsque le bras est en extension. Une caméra centrale haute résolution surveille spécifiquement l'espace de travail du préhenseur pour les tâches de manipulation fine. La vitesse du bras, du lift et de la base a été doublée par rapport à Stretch 3, et la portée totale étendue de 10 %. Un nouveau système d'alimentation permet jusqu'à huit heures d'autonomie, avec station de recharge autonome intégrée. Ce qui distingue Stretch 4 dans le segment des robots de service tient moins aux gains de vitesse qu'à sa philosophie sensorielle, explicitement calquée sur l'approche "sensor-rich" de Waymo pour le véhicule autonome. Aaron Edsinger, CEO, l'exprime sans détour : les robots mobiles actuels sont "relativement aveugles" aux personnes et aux obstacles dynamiques, ce qui représente un frein réel au déploiement en environnements non structurés, domiciles, établissements de santé. Pour les intégrateurs et les équipes de recherche qui ciblent ces contextes, Stretch 4 offre une base perceptuelle nettement plus robuste que la génération précédente. La hausse de taille répond à un besoin fonctionnel concret : accompagner des utilisateurs en fauteuil roulant motorisé, dont la tête se situe plus haut. La conception reste délibérément orientée sécurité intrinsèque, masse basse, absence d'actionneurs luttant contre la gravité, sans prétendre à une certification formelle, ce qu'Edsinger reconnaît explicitement. Hello Robot a été fondée en 2017 et a commercialisé Stretch à partir de 2020. La plateforme compte aujourd'hui plus de mille utilisateurs dans vingt-trois pays, principalement des laboratoires académiques et des équipes de R&D industrielle. Stretch 3 avait remporté le RBR50 Robotics Innovation Award 2025 dans la catégorie "Robots for Good". La stratégie open-source de Hello Robot la positionne différemment des acteurs humanoïdes (Figure, Agility, Apptronik) ou des robots de service propriétaires (Boston Dynamics Spot). Dans le segment des manipulateurs mobiles à bras unique destinés à la recherche, la concurrence directe inclut Fetch Robotics (racheté par Zebra), le PR2 en voie d'extinction, et les nouvelles plateformes de Robotics+AI startups comme Kepler. Stretch 4 cible une niche précise, recherche en IA physique, assistance aux personnes à mobilité réduite, où le rapport prix/polyvalence sensorielle constitue l'argument principal. Aucune timeline de certification sécurité n'a été communiquée.

RobotiqueActu
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
138arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

RechercheOpinion
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
139arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

RobotiqueOpinion
1 source
Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
140arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

RechercheOpinion
1 source
Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026
141FrenchWeb 

Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026

En 2026, la robotique franchit un cap décisif après des années de promesses non tenues. L'accélération est portée par plusieurs dynamiques convergentes : une pénurie structurelle de main-d'œuvre dans les pays industrialisés, des chaînes logistiques sous pression depuis la pandémie, et une maturité technologique atteinte notamment grâce aux avancées en vision par ordinateur et en apprentissage par renforcement. Des acteurs comme Figure AI, Agility Robotics ou 1X Technologies multiplient les annonces de déploiements industriels à grande échelle, tandis que Boston Dynamics poursuit sa commercialisation avec Spot et Atlas. L'enjeu dépasse désormais le simple gadget d'exposition. Les robots humanoïdes et collaboratifs entrent en production réelle dans des entrepôts Amazon, des usines BMW ou des chaînes d'assemblage Tesla, remplaçant des tâches répétitives à fort risque d'accident. Pour les PME industrielles, l'abaissement du coût d'entrée, certains bras robotisés passent sous les 20 000 euros, ouvre un marché jusqu'ici réservé aux grands groupes. Les syndicats et régulateurs commencent également à s'organiser face à l'impact sur l'emploi. Ce basculement s'explique par une décennie d'investissements massifs : le marché mondial de la robotique devrait dépasser 260 milliards de dollars d'ici 2030 selon la fédération internationale IFR. La Chine, premier marché mondial, y installe chaque année plus de robots que l'ensemble de l'Europe. Les conférences sectorielles de 2026, AUTOMATICA à Munich, IREX à Tokyo, ProMat à Chicago, s'annoncent comme des rendez-vous charnières pour observer quels standards techniques et quels modèles économiques s'imposeront dans cette nouvelle phase industrielle.

UEL'Europe est directement impliquée dans cette transition industrielle, avec des déploiements chez BMW, la conférence AUTOMATICA à Munich comme rendez-vous sectoriel clé en 2026, et des syndicats et régulateurs européens qui commencent à s'organiser face à l'impact sur l'emploi.

💬 Les humanoïdes chez Amazon et Tesla, c'est le show. Ce qui va vraiment tout changer, c'est qu'un bras robotisé passe sous les 20 000 euros, parce que là, les PME industrielles entrent enfin dans la partie. Reste à voir si les intégrateurs suivent.

RobotiqueOpinion
1 source
ROBOTICS SUMMIT & EXPO 2026, Boston au cœur de la nouvelle économie robotique
142FrenchWeb 

ROBOTICS SUMMIT & EXPO 2026, Boston au cœur de la nouvelle économie robotique

Le Robotics Summit & Expo 2026 se tiendra les 27 et 28 mai à Boston, confirmant la place de la ville comme capitale mondiale de la robotique. L'événement réunit cette année des acteurs issus de secteurs historiquement cloisonnés : robotique industrielle, recherche académique et automatisation logistique. Ce rassemblement annuel, devenu l'un des rendez-vous incontournables du secteur, illustre une transformation structurelle profonde de l'industrie, où les frontières entre ces univers distincts s'effacent progressivement au profit d'un écosystème intégré. Cette convergence a des implications concrètes pour les entreprises et les investisseurs. Un bras robotique industriel peut désormais intégrer des algorithmes issus de la recherche universitaire et être déployé dans un entrepôt logistique, des silos qui ne communiquaient pas il y a cinq ans. Pour les industriels, cela signifie des cycles d'innovation raccourcis et des opportunités de financement croisé entre acteurs publics, privés et académiques. Boston, avec son dense tissu de startups, de laboratoires universitaires (MIT, Harvard, Boston Dynamics) et de fonds spécialisés, cristallise mieux que nulle part ailleurs cette dynamique. La ville du Massachusetts s'est imposée comme référence mondiale en matière de robotique en grande partie grâce à l'écosystème né autour de Boston Dynamics et des programmes de recherche du MIT. Le Robotics Summit s'inscrit dans ce contexte de consolidation d'une filière en pleine maturité, portée par la demande croissante en automatisation dans l'industrie, la santé et la défense. Les éditions à venir devraient accentuer encore cette logique de convergence, à mesure que l'IA embarquée redéfinit ce qu'un robot peut faire de manière autonome.

💬 Boston, c'est vraiment le bon endroit pour observer ce qui se passe vraiment dans la robotique, pas juste les démos. Ce qui m'intéresse là-dedans, c'est la convergence industrielle/académique/logistique : ça fait des années qu'on en parle, et là ça devient une réalité de déploiement. Reste que pour les acteurs européens, regarder Boston de loin sans écosystème équivalent, ça fait un peu mal.

RobotiqueOpinion
1 source
Video Friday : l'IA confère aux mains robotiques une dextérité humaine
143IEEE Spectrum Robotics 

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

Cette semaine dans la sphère robotique, l'annonce la plus médiatisée émane de Genesis AI, qui présente GENE-26.5, décrit par la société comme "le premier cerveau IA à conférer aux robots des capacités de manipulation physique au niveau humain." Les démonstrations vidéo montrent un système cuisant un repas complet, cassant un oeuf d'une seule main, conduisant des expériences de laboratoire, réalisant du câblage de harnais électrique et jouant du piano. Aucun détail technique sur le matériel robotique utilisé, les taux de succès, ou les conditions d'environnement contrôlées n'est communiqué, ce qui invite à la prudence avant de valider ces affirmations. En parallèle, le Robotics and AI Institute publie une démonstration du quadrupède Spot de Boston Dynamics piloté par un réseau de neurones entraîné par apprentissage par renforcement combiné à une distillation multi-expert: le robot s'accroupit, saute, escalade des caisses et franchit des vides. Du côté de la NASA, les ingénieurs du Jet Propulsion Laboratory ont passé la barrière du son avec des pales de rotor de prochaine génération pour hélicoptère martien, atteignant Mach 1 dans une chambre simulant l'atmosphère de Mars, dont la densité représente environ 1 % de celle de la Terre. Jim Fan, qui dirige le groupe de recherche en autonomie incarnée chez Nvidia, affirme pour sa part que la robotique entre dans sa "phase finale" et que le plan de jeu est déjà écrit. Les affirmations de Genesis AI sur la manipulation humanoïde méritent d'être contextualisées: le secteur est parsemé d'annonces de "dextérité humaine" qui peinent à se vérifier hors conditions contrôlées. L'absence de métriques objectives, taux de succès, nombre de tentatives, variété des objets manipulés, est un signal d'alerte classique dans les communications de ce type, et le demo-to-reality gap reste la question centrale pour tout décideur B2B qui évalue ces systèmes. La prouesse NASA sur les rotors martiens est, en revanche, une avancée mesurable: franchir Mach 1 dans une atmosphère aussi ténue implique des vitesses de rotation extrêmes et des matériaux composites capables de résister à des charges aérodynamiques inédites, ouvrant la voie à des hélicoptères plus capables pour de futures missions. Quant à Atlas, le discours officiel de Boston Dynamics sur l'équilibre entre objectifs commerciaux et recherche fondamentale traduit la pression croissante que subissent les constructeurs de plateformes humanoïdes pour démontrer une rentabilité tangible après des années d'investissement massif. Genesis AI est peu connue du grand public; sa mise en avant via TechCrunch suggère une stratégie de visibilité plutôt qu'un lancement produit au sens strict. Dans l'écosystème concurrent, Physical Intelligence avec Pi-0, Figure Robotics avec le Figure 03, Agility Robotics et 1X mènent des efforts comparables sur la manipulation généraliste, tandis que Nvidia prépare le terrain pour GR00T N2 et les prochains modèles de foundation pour corps physiques. Le thème de l'Open Duck Mini, version open-source des droids BDX de Disney publiée par la communauté, rappelle que l'innovation en robotique ne se limite pas aux acteurs industriels. La communauté se retrouvera à ICRA 2026 du 1er au 5 juin à Vienne, puis à RSS 2026 du 13 au 17 juillet à Sydney, deux rendez-vous où ces avancées seront soumises à une évaluation scientifique rigoureuse, loin des vidéos de démonstration soigneusement sélectionnées.

💬 Genesis AI sort le grand jeu avec GENE-26.5, mais zéro métrique, zéro taux de réussite, ça reste une démo marketing jusqu'à preuve du contraire. Ce qui me retient vraiment dans cette actu, c'est la prouesse NASA sur les rotors martiens: Mach 1 dans 1% de densité atmosphérique, ça c'est de la physique vérifiable, pas du storytelling. Jim Fan parle de "phase finale" pour la robotique, bon, sur le papier c'est enthousiasmant, reste à voir ce que ça donne à ICRA en juin face aux pairs.

RobotiqueActu
1 source
AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)
144arXiv cs.RO 

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié AsyncVLA (arXiv:2511.14148), un cadre pour modèles Vision-Language-Action (VLA) qui remplace le flow matching synchrone (SFM) conventionnel par un mécanisme asynchrone (AFM) à calendrier temporel non uniforme. Là où le SFM applique un pas de temps identique à tous les tokens d'action, AsyncVLA ajuste ce calendrier en fonction du contexte actionnel en cours, et intègre un module "confidence rater" qui évalue la fiabilité de chaque token généré pour déclencher une auto-correction sélective avant exécution. La procédure d'entraînement est unifiée: un seul modèle peut opérer en mode SFM ou AFM, avec une meilleure utilisation du cache KV. Sur les benchmarks de manipulation robotique en simulation et en conditions réelles, AsyncVLA surpasse les méthodes existantes avec une efficacité accrue en données d'entraînement. Le code est publié en open source sur GitHub. L'instabilité des VLA sur les tâches longue durée (long-horizon) est l'un des principaux freins à leur déploiement industriel: en SFM, une erreur d'action se propage en cascade jusqu'à l'échec complet de la séquence. La capacité d'auto-correction d'AsyncVLA adresse directement ce point, ce qui intéresse les intégrateurs et les équipes robotiques confrontées à des cycles opératoires de plusieurs minutes. L'efficacité en données est un argument complémentaire: entraîner des VLA compétitifs nécessite aujourd'hui des datasets massifs et coûteux, et une méthode qui atteint de meilleures performances avec moins de données réduit la barrière d'entrée. Il faut toutefois nuancer: le papier se limite à des benchmarks de manipulation sans publier de chiffres de déploiement à l'échelle, de temps de cycle réels, ni de résultats sur une flotte opérationnelle. Les VLA à base de flow matching ont été popularisés par Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2024, établissant un standard de génération d'actions continues pour la robotique généraliste. AsyncVLA s'inscrit dans une tendance de raffinement algorithmique de ces architectures, aux côtés d'approches comme OpenVLA, la distillation de politique diffusion, ou les modèles hybrides VLA et planificateur symbolique. Son avantage comparatif est la compatibilité directe avec les pipelines SFM existants, sans rupture architecturale majeure, ce qui facilite l'adoption par les équipes déjà engagées sur ces bases. Les prochaines étapes crédibles seraient une validation sur des robots humanoïdes (Figure, 1X, Unitree) ou des bras industriels en production réelle, là où la robustesse long-horizon reste le goulot d'étranglement dominant.

💬 Le problème de propagation d'erreur en cascade dans les VLA, c'est exactement ce qui bloque le déploiement industriel depuis des mois. AsyncVLA l'attaque frontalement avec un mécanisme de correction sélective avant exécution, et la compatibilité directe avec les pipelines SFM existants (Pi-0, GR00T) rend l'adoption crédible sans tout casser. Reste à voir ce que ça donne sur des cycles de 10 minutes en prod réelle, pas juste en simulation.

RechercheOpinion
1 source
Podcast : Colin Angle parle de la conception de robots compagnons avec Familiar Machines et Magic
145The Robot Report 

Podcast : Colin Angle parle de la conception de robots compagnons avec Familiar Machines et Magic

Colin Angle, cofondateur et ancien PDG d'iRobot, sort de la discrétion avec une nouvelle startup baptisée Familiar Machines & Magic (FM&M). La société vient de lever le voile sur son projet : développer des robots compagnons appelés "Familiars", conçus pour entretenir des relations à long terme avec leurs utilisateurs, avec une dimension d'intelligence émotionnelle embarquée. FM&M se positionne dans le segment de la "physical AI grand public". Aux côtés d'Angle, l'équipe fondatrice comprend Ira Renfrew, directrice des ressources humaines et du produit, et le Dr Chris Jones, directeur R&D, tous deux vétérans de l'industrie avec des parcours chez iRobot, Amazon et d'autres grandes plateformes technologiques. Le reste de l'équipe cumule des expertises issues de Disney Research, du MIT, de Boston Dynamics et de l'USC. Collectivement, les fondateurs revendiquent le déploiement de plus de 50 millions de robots grand public dans le monde. La société opère depuis Boston, Los Angeles et Hong Kong. Le retour de Colin Angle dans la robotique grand public constitue un signal notable pour un secteur aujourd'hui dominé par les annonces industrielles et les humanoïdes de laboratoire. FM&M mise sur un segment encore peu commercialisé : le robot domestique à vocation relationnelle, distinct du simple assistant vocal ou du robot aspirateur. L'enjeu central est de démontrer qu'une intelligence émotionnelle peut être embarquée dans un produit physique viable sur le marché de masse, hypothèse que plusieurs tentatives précédentes (Jibo, Anki Vector, Embodied Moxie) n'ont pas réussi à valider à grande échelle. Le pedigree de l'équipe apporte une crédibilité rare dans ce segment, notamment sur les questions de navigation, de robustesse produit et de capacité manufacturière. Cela dit, FM&M n'a annoncé ni produit concret, ni prix, ni calendrier de lancement : on reste strictement au stade de la sortie de stealth, sans prototype montré publiquement. Angle a quitté iRobot début 2024 après l'échec du rachat par Amazon, bloqué par la Commission européenne en janvier 2024 pour des raisons de concurrence, ce qui avait contraint l'entreprise à licencier environ 31 % de ses effectifs et Angle à démissionner. Cette rupture a libéré l'un des profils les plus expérimentés de la robotique grand public pour fonder FM&M. Dans le paysage concurrent, les robots compagnons peinent structurellement à trouver un modèle économique pérenne : Embodied a fermé ses portes, Sony perpétue Aibo sur un segment premium très niche, et des acteurs comme 1X Technologies ou Apptronik visent prioritairement l'industrie. Aucune levée de fonds n'a été communiquée publiquement par FM&M, et la formulation retenue par la société, construire "une plateforme à long terme pour la vie artificielle", suggère un horizon commercial encore lointain.

UELe blocage par la Commission européenne du rachat d'iRobot par Amazon (janvier 2024) a indirectement libéré l'équipe fondatrice pour créer FM&M, mais la société n'a annoncé aucune présence ni activité en Europe à ce stade.

Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24
146Le Big Data 

Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24

Le rédacteur en chef de LeBigData.fr était l'invité d'Ali Laïdi dans l'émission "Aux avant-postes" sur France 24 pour évoquer l'essor des robots humanoïdes et leurs effets sur le marché du travail. Alors que les débats publics restent concentrés sur les IA génératives comme ChatGPT, une autre transformation s'accélère discrètement dans les laboratoires de la Silicon Valley et de Chine : des robots comme Optimus de Tesla, Atlas de Boston Dynamics, ou encore les modèles de Figure et Unitree ne sont plus de simples démonstrations technologiques. Ils sont désormais en phase de déploiement industriel réel, dans des usines et des entrepôts, avec une capacité croissante à manipuler des objets, porter des charges lourdes et s'adapter à des environnements non structurés. Le point de bascule mis en avant lors de cette intervention n'est pas technologique mais économique : le coût d'exploitation d'un robot humanoïde pourrait descendre à environ 1 dollar de l'heure d'ici quelques années. À ce niveau de prix, aucun marché du travail humain, même dans les économies à bas salaires, ne peut soutenir la comparaison. Les secteurs de la logistique, de la manutention et de la production industrielle seraient les premiers touchés, avant que l'automatisation physique ne s'étende progressivement aux environnements de bureau. Pour les entreprises, le calcul deviendra rapidement incontournable ; pour les travailleurs de ces filières, la transition risque d'être brutale et rapide. La question centrale que soulève cette mutation dépasse largement le cadre technologique : si le travail physique humain devient facultatif dans des pans entiers de l'économie, comment les États financeront-ils leurs systèmes de protection sociale, historiquement adossés aux cotisations salariales ? Comment redéfinir la valeur et la place de l'individu dans une économie massivement automatisée ? Ces enjeux, encore largement absents des agendas politiques, s'inscrivent dans un calendrier serré : les cinq prochaines années seront décisives selon l'intervenant, qui a approfondi ces questions dans un essai récemment publié, "Robots humanoïdes : vont-ils prendre votre travail ? Ce qui vous attend vraiment d'ici 2030". Pendant que les gouvernements débattent de la régulation des algorithmes, les déploiements physiques, eux, avancent à un rythme que peu d'acteurs institutionnels semblent encore mesurer.

UELa question du financement des systèmes de protection sociale français et européens, historiquement adossés aux cotisations salariales, est directement posée par la perspective d'une automatisation physique massive d'ici 2030.

RobotiqueOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
147arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

RobotiqueOpinion
1 source
L'IA physique est la véritable révolution de l'industrie manufacturière
148Robotics Business Review 

L'IA physique est la véritable révolution de l'industrie manufacturière

Pour Steve Ricketts, vice-président du développement commercial chez Fictiv, 2026 marque le basculement de l'IA conversationnelle vers ce qu'il nomme l'"IA physique" : la convergence entre réseaux de neurones et systèmes mécaniques embarqués. Sur le terrain, cette transition se manifeste dans trois segments concrets : les robots mobiles autonomes (AMR) capables d'interagir avec les rayonnages en bout de ligne, les cobots équipés de perception haptique pour l'assemblage électronique aux côtés d'opérateurs humains, et les bras robotisés dotés de vision IA pour le contrôle qualité, capables selon Fictiv de détecter des microfissures dans des aubes de turbines invisibles à l'oeil nu. L'article ne fournit pas de chiffres de déploiement précis et s'appuie sur des cas génériques. Sur le plan industriel, MISUMI, distributeur japonais de composants coté en bourse, a acquis Fictiv, marketplace de fabrication à la demande (CNC, injection, impression 3D). La combinaison des deux a permis à un client entreprise non nommé de rapatrier sa production aux États-Unis, en consolidant flux matière et production multi-régions pour accélérer le ramp-up. Ce qui distingue cette vague des précédentes est le raccourcissement de la boucle de développement via les pipelines "sim-to-real" : des agents IA s'entraînent dans des jumeaux numériques photoréalistes, exécutant des millions d'itérations en quelques heures avant tout déploiement physique. Cette approche permet de traiter des tâches à haute variabilité, comme le tri de ferraille non structurée ou la navigation en couloir hospitalier, jusqu'ici impossibles à automatiser de façon fiable. Pour les intégrateurs et les décideurs industriels, le signal opérationnel est double : le rôle du développeur bascule de "programmeur" à "entraîneur", et le critère de sélection des plateformes se déplace vers la capacité à absorber des feedbacks terrain en production réelle. Le vrai goulot d'étranglement identifié pour 2026 n'est plus algorithmique mais physique : la "scaling wall", soit la capacité à fabriquer des milliers d'unités de hardware en qualité constante dans une supply chain mondiale sous tension. Il faut noter que cet article est signé par le VP de Fictiv lui-même, lui conférant une tonalité promotionnelle assumée plutôt qu'analytique indépendante. Dans le paysage concurrentiel, Amazon déploie déjà des humanoïdes Digit d'Agility Robotics dans ses entrepôts, tandis que Boston Dynamics, Figure et 1X intensifient leurs pipelines commerciaux. Du côté européen, des acteurs comme Enchanted Tools ou Wandercraft avancent sur des niches spécifiques (robotique hospitalière, exosquelettes), mais restent absents de cette analyse orientée marché nord-américain. Le prochain jalon annoncé est la conférence Robotics Summit & Expo de Boston, en mai 2026, où Ricketts interviendra sur le thème "Emergent Robotics : AI at the Edge of Hardware Innovation".

RobotiqueOpinion
1 source
Ce que les discussions entre LG et NVIDIA révèlent sur l'avenir de l'IA physique
149AI News 

Ce que les discussions entre LG et NVIDIA révèlent sur l'avenir de l'IA physique

LG et NVIDIA sont actuellement en discussions exploratoires portant sur l'IA physique, les centres de données et la mobilité. Une rencontre à Séoul entre Ryu Jae-cheol, PDG de LG, et Madison Huang, directeur senior marketing produit pour Omniverse et la robotique chez NVIDIA, a permis de poser les bases d'une coopération potentielle. Aucun montant ni calendrier n'a encore été formalisé, mais les deux entreprises ont des priorités matérielles qui se recoupent sur deux fronts distincts : l'infrastructure thermique des centres de données et la robotique domestique. Sur le premier point, LG a présenté au CES 2026 des solutions de climatisation et de gestion thermique haute efficacité spécifiquement conçues pour les fermes de serveurs IA. Sur le second, le groupe coréen a dévoilé CLOiD, un robot domestique doté de deux bras à sept degrés de liberté et de cinq doigts à actuation individuelle, fonctionnant sur sa plateforme maison baptisée "Affectionate Intelligence". En parallèle, NVIDIA vient de conclure un essai de deux semaines sur un site Siemens en janvier 2026, annoncé en avril à la foire de Hanovre, où un robot humanoïde HMND 01 Alpha a exécuté des opérations logistiques réelles sur une plage de huit heures. Ces discussions révèlent une dépendance structurelle croissante entre les fabricants d'équipements physiques et les fournisseurs de puissance de calcul. Les racks de serveurs NVIDIA génèrent des densités de chaleur que les systèmes de refroidissement conventionnels ne peuvent plus absorber sans dégrader les performances : lorsque les nœuds de calcul surchauffent, ils réduisent automatiquement leur cadence, détruisant le retour sur investissement des puces haut de gamme. Intégrer les solutions thermiques de LG directement dans l'écosystème NVIDIA permettrait aux opérateurs d'entasser plus de puissance de calcul dans moins d'espace physique. Du côté robotique, LG manque aujourd'hui des environnements de simulation, des modèles de manipulation pré-entraînés et de l'infrastructure de jumeaux numériques nécessaires pour déployer CLOiD en toute sécurité dans des logements réels. La pile Omniverse et Isaac de NVIDIA offre précisément cette architecture, optimisée pour l'inférence physique en temps réel, ce qui permettrait de comprimer drastiquement le délai entre prototype et production commerciale. L'enjeu central de ces négociations illustre une fracture fondamentale de l'IA physique : les environnements industriels, comme l'usine Siemens d'Erlangen, sont structurés et prévisibles, ce qui facilite le déploiement de robots. Les intérieurs domestiques, eux, présentent une variabilité extrême en termes d'éclairage, de disposition et de comportement humain imprévisible, rendant le passage à l'échelle bien plus complexe. LG mise sur NVIDIA pour combler cette lacune via la puissance de simulation et l'inférence en périphérie de réseau. Pour NVIDIA, dont les revenus du segment centres de données battent régulièrement des records, nouer des partenariats avec des constructeurs d'appareils grand public comme LG représente une voie pour ancrer sa plateforme Omniverse comme standard de l'industrie robotique, avant que la concurrence chinoise ou les acteurs spécialisés ne s'imposent.

UELe déploiement d'un robot humanoïde sur le site Siemens d'Erlangen (Allemagne) signale une accélération de l'IA physique dans l'industrie manufacturière européenne, avec des implications pour les équipementiers et intégrateurs du secteur.

RobotiqueOpinion
1 source
La Chine prévoit 8 500 robots IA pour son réseau électrique, avec un investissement d'un milliard de dollars
150Interesting Engineering 

La Chine prévoit 8 500 robots IA pour son réseau électrique, avec un investissement d'un milliard de dollars

La State Grid Corporation of China, le plus grand opérateur électrique du monde, va déployer environ 8 500 robots dopés à l'intelligence artificielle sur son réseau en 2026, avec un budget de 6,8 milliards de yuans, soit près d'un milliard de dollars. Ces machines couvriront plus de 600 tâches spécialisées : quelque 5 000 chiens-robots quadrupèdes assureront la surveillance et l'inspection des lignes dans les zones montagneuses difficiles d'accès, 500 robots humanoïdes interviendront sur les infrastructures à très haute tension en conditions de travail sous tension, et 3 000 robots à bras doubles sur roues effectueront des opérations de maintenance coordonnée. Les fournisseurs retenus sont parmi les fleurons de la robotique chinoise : Unitree Robotics, Deep Robotics, AgiBot, UBTech Robotics et Fourier Intelligence. En comptant les investissements de China Southern Power Grid et des autres acteurs du secteur, les dépenses totales en robots embarqués devraient dépasser 10 milliards de yuans (1,46 milliard de dollars) pour la seule année 2026. L'enjeu est considérable : automatiser la gestion d'un réseau électrique qui dessert 26 des 31 provinces continentales chinoises, dans des environnements souvent hostiles ou dangereux pour les techniciens humains. En janvier 2026, des chercheurs chinois avaient déjà ramené le temps de réponse aux défaillances de réseau à 0,1 seconde, permettant une isolation et une restauration quasi instantanées des pannes, y compris la détection de micro-défauts de courant à l'échelle de la centaine de milliampères. Confier l'inspection et la maintenance quotidiennes à des robots réduit les risques humains, améliore la continuité de service et libère les techniciens pour des interventions à plus haute valeur ajoutée. Pour les utilisateurs industriels et les ménages, l'objectif est une grille électrique plus fiable et plus résiliente face aux aléas. Ce virage robotique s'inscrit dans une stratégie industrielle plus large. La Chine domine déjà les expéditions mondiales de robots incarnés et vise 2,1 millions d'unités produites d'ici 2030. Le réseau électrique sert ici de laboratoire grandeur nature pour valider des systèmes d'IA en conditions réelles à très grande échelle. China Southern Power Grid a même commencé à exporter ses propres chiens-robots pour l'inspection de sous-stations au Chili, signe que la filière lorgne désormais les marchés internationaux. À mesure que l'autonomie des systèmes augmentera, le secteur énergétique chinois pourrait devenir la référence mondiale pour l'intégration massive de l'IA dans des infrastructures critiques.

UELa montée en puissance de la filière robotique chinoise, déjà exportatrice (Chili) et visant 2,1 millions d'unités d'ici 2030, accroît la pression concurrentielle sur les industriels et opérateurs d'infrastructures critiques européens qui devront choisir entre adoption et développement de capacités propres.

RobotiqueActu
1 source