Aller au contenu principal

Robotique

50 sur 532 articles

Actualités robotique et IA : robots autonomes, drones, véhicules autonomes et robots humanoïdes.

Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration
1Le Big Data RobotiqueActu

Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration

Lors d'une démonstration publique en Chine le 5 juin 2026, un robot humanoïde déguisé en clown, perruque colorée incluse, a donné un coup de pied circulaire dans le ventre d'un enfant positionné au premier rang du public. La scène, capturée en vidéo et relayée sur le réseau social X par le compte Culture Crave, a rapidement accumulé plusieurs millions de vues. Sur les images, on distingue nettement le robot effectuer une rotation, son pied venant heurter l'enfant qui recule sous l'impact. Les personnes présentes semblent immédiatement réagir. On ignore pour l'instant l'identité du fabricant du robot, le lieu exact de la démonstration, et si l'enfant a été blessé. Les circonstances précises, dysfonctionnement technique ou mouvement non anticipé de la chorégraphie programmée, restent également indéterminées. L'incident remet brutalement en lumière la question de la sécurité des robots humanoïdes déployés dans des espaces publics, au contact direct du grand public et d'enfants. Même conçus à des fins de divertissement, ces machines sont capables de produire des gestes rapides, puissants et difficiles à anticiper pour un spectateur non averti. Les fabricants investissent depuis des années dans des mécanismes de détection de proximité et de limitation de force pour réduire les risques de collision avec les humains, mais aucun dispositif n'est infaillible. Un mauvais calibrage, une erreur de programmation ou une mauvaise lecture de l'environnement suffisent à transformer une démonstration ludique en incident. La mise en scène, un robot grimé en clown censé amuser un public familial, rend l'image d'autant plus frappante et questionne le cadre réglementaire entourant ce type d'événements. La robotique humanoïde connaît depuis quelques années une accélération remarquable : les machines marchent, courent, sautent et dansent avec une fluidité croissante, réalisant des figures jugées hors de portée il y a encore peu. Des acteurs comme Boston Dynamics, Unitree ou Figure AI poussent les limites des capacités physiques de ces systèmes, tandis que la Chine a massivement investi dans ce secteur pour en faire un axe stratégique de son industrie technologique. Mais cette montée en puissance s'accompagne d'un déploiement accéléré dans des contextes grand public, salons, centres commerciaux, événements, avant que les standards de sécurité n'aient pleinement suivi. Cet épisode, aussi anecdotique qu'il puisse paraître, est susceptible d'alimenter les débats sur les normes de cohabitation entre robots et humains dans des espaces non contrôlés, un enjeu que régulateurs et industriels devront inévitablement trancher à mesure que ces machines se banalisent.

UEL'incident alimente indirectement le débat européen sur les normes de sécurité encadrant le déploiement de robots humanoïdes dans des espaces publics.

1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
2arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

RobotiquePaper
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
3arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

RobotiquePaper
1 source
EVE : un système générateur-vérificateur pour les politiques génératives
4arXiv cs.RO 

EVE : un système générateur-vérificateur pour les politiques génératives

Des chercheurs ont publié en décembre 2024 sur arXiv (2512.21430) EVE, un framework modulaire de type générateur-vérificateur visant à améliorer les politiques visuomotrices génératives en robotique, au moment de l'inférence et sans aucun réentraînement. Le système enveloppe une politique de base figée, reposant sur la diffusion ou le flow-matching, avec plusieurs agents vérificateurs VLM (Vision-Language Model) opérant en mode zéro-shot. Chaque vérificateur propose des raffinements d'actions candidates générées par la politique de base ; un module d'incorporation fusionne ensuite les retours agrégés via un guidage par classifieur intégré dans le processus de débruitage de l'action. Les évaluations couvrent des tâches de manipulation simulées et réelles sur différents embodiments robotiques, avec des gains de taux de succès mesurés dans chaque configuration testée, sans modifier ni la politique ni les vérificateurs. L'intérêt principal réside dans le transfert d'une technique émergente des LLMs, le scaling du compute au test-time, vers la commande robotique incarnée. Des systèmes comme OpenAI o1 ou DeepSeek-R1 ont montré qu'allouer davantage de calcul à l'inférence améliore significativement les performances, sans toucher aux poids du modèle. EVE applique cette logique aux politiques génératives : là où une politique de diffusion dégrade sous distribution shift (scènes inédites, objets non vus à l'entraînement, perturbations), les vérificateurs VLM guident la correction sans fine-tuning coûteux. Pour les intégrateurs et décideurs B2B, le signal est concret : améliorer les performances d'un modèle déployé pourrait devenir une question de ressources de calcul à l'inférence, non de nouveaux cycles d'entraînement sur des données supplémentaires. Les politiques visuomotrices par diffusion ont émergé à partir de 2023 avec Diffusion Policy (Columbia University) et ACT, suivies d'architectures flow-matching comme pi0 de Physical Intelligence. Ces modèles performent correctement sur leur distribution d'entraînement mais peinent hors distribution, un frein central au déploiement industriel. EVE s'inscrit dans une tendance plus large qui consiste à coupler des VLMs généralistes avec des politiques spécialisées sans réentraînement. Les approches concurrentes incluent le Best-of-N sampling appliqué à la robotique et les méthodes de récompense dense au test-time (SuSIE, GROOT). La suite logique serait de valider EVE sur des plateformes physiques à plus grande échelle et de quantifier le trade-off latence/qualité en fonction du nombre de vérificateurs actifs simultanément.

💬 Le test-time compute en robotique, c'était la suite évidente après o1, et j'attendais que quelqu'un le fasse proprement. Améliorer une politique déployée sans relancer un cycle d'entraînement, c'est le genre d'approche qui va vraiment intéresser les intégrateurs si ça tient en prod. Tu gardes un oeil sur le trade-off latence/nombre de vérificateurs, parce que là ça peut vite coûter cher.

RobotiqueOpinion
1 source
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
5arXiv cs.RO 

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme. L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire. Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

RobotiqueOpinion
1 source
Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
6arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

RobotiqueOpinion
1 source
AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
7arXiv cs.RO 

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

RobotiqueOpinion
1 source
Le guide du sceptique face aux robots humanoïdes qui font le buzz sur Internet
8Ars Technica AI 

Le guide du sceptique face aux robots humanoïdes qui font le buzz sur Internet

Les vidéos de robots humanoïdes se multiplient sur les réseaux sociaux, montrant des machines qui dansent, font de l'acrobatie ou accomplissent des tâches ménagères avec une aisance déconcertante. Ces démonstrations, soigneusement orchestrées par des startups et des géants technologiques, créent l'impression que les robots capables de tout faire sont sur le point d'envahir nos quotidiens. Jonathan Hurst, cofondateur d'Agility Robotics et chercheur en robotique à l'Université d'État de l'Oregon, tire la sonnette d'alarme sur ce phénomène viral. Le problème central est l'écart considérable qui subsiste entre ces performances en démonstration et la capacité réelle de ces machines à exécuter les mêmes tâches de manière fiable et répétée dans des environnements non contrôlés. Hurst pointe un mécanisme cognitif bien documenté : les humains ont naturellement tendance à anthropomorphiser tout objet à forme humanoïde. Voir un bras robotique danser paraît simplement impressionnant, mais voir un robot humanoïde effectuer le même mouvement pousse le cerveau à extrapoler, à tort, que cette machine possède l'ensemble des capacités d'un être humain dansant. "Les gens supposent automatiquement que le robot qui ressemble à une personne peut faire tout ce qu'une personne qui danse pourrait faire, ce qui n'est pas vrai", a-t-il déclaré. Cette confusion n'est pas totalement accidentelle. Selon Hurst, de nombreuses startups du secteur exploitent délibérément ce biais cognitif pour séduire les investisseurs et lever des fonds. L'industrie de la robotique humanoïde attire des milliards de dollars de capital-risque, portée par des acteurs comme Figure AI, 1X, Apptronik ou Boston Dynamics, chacun cherchant à convaincre que la percée commerciale est imminente. La réalité technique est plus nuancée : programmer un robot pour reproduire une chorégraphie dans un studio contrôlé est sans commune mesure avec lui faire gérer l'imprévisibilité d'un entrepôt ou d'une cuisine. Le grand public, et parfois les décideurs, peinent encore à faire cette distinction essentielle.

RobotiqueOpinion
1 source
Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix
9The Verge 

Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix

Amazon a présenté une nouvelle version de Proteus, son robot de manutention autonome déployé dans ses entrepôts, capable désormais de recevoir des instructions en langage naturel. Là où les opérateurs devaient auparavant passer par un logiciel spécialisé pour programmer les déplacements de l'engin, ils peuvent désormais lui communiquer des tâches verbalement, comme à un collègue. Le robot, au format bas et trapézoïdal conçu pour déplacer de lourds chariots à travers les allées logistiques, conserve le même châssis que le modèle original annoncé en 2022, la nouveauté est exclusivement logicielle, portée par une surcouche IA. L'enjeu est significatif pour les opérations à grande échelle : éliminer la friction de programmation réduit le temps de formation des opérateurs et permet une réaffectation dynamique des robots sans intervention IT. C'est aussi un signal clair sur la direction qu'Amazon prend dans la course à l'automatisation de ses 1 000+ centres de distribution aux États-Unis, où la pression syndicale et les coûts de main-d'oeuvre accélèrent les déploiements robotiques. Cela dit, l'annonce reste pour l'instant au stade de démonstration capacitaire : Amazon ne communique pas de chiffres de déploiement, de taux d'erreur ni de benchmarks de cycle time dans des conditions réelles. Proteus fait partie d'un portefeuille robotique Amazon qui inclut Sequoia (tri de petits colis), Sparrow (picking d'articles) et Cardinal (manutention de caisses). Sur le volet langage naturel appliqué aux robots industriels, Amazon rejoint une tendance portée par Boston Dynamics (Spot) et Intrinsic (filiale Alphabet), qui intègrent des interfaces LLM pour réduire la barrière à la programmation en atelier. Les prochaines étapes annoncées par Amazon restent vagues, sans timeline précise ni volume de déploiement confirmé.

UEAmazon opère des entrepôts en France et en Europe ; l'adoption à grande échelle d'interfaces LLM sur robots industriels pourrait accélérer la pression à l'automatisation dans la logistique EU et influencer les standards d'intégration des opérateurs locaux.

RobotiqueOpinion
1 source
IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture
10Robotics & Automation News 

IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture

CreateMe, startup spécialisée dans l'automatisation du prêt-à-porter et dirigée par Campbell Myers, développe des systèmes de fabrication textile basés sur l'IA physique, des modèles capables de percevoir et de manipuler des matériaux souples en temps réel. L'approche centrale de l'entreprise repose sur le bonding (collage structurel) plutôt que sur la couture traditionnelle, une décision technique qui vise à simplifier radicalement la chaîne d'assemblage. L'industrie de l'habillement emploie plusieurs dizaines de millions de travailleurs à l'échelle mondiale, concentrés principalement en Asie du Sud-Est, et reste l'un des secteurs les moins automatisés de la fabrication industrielle. La manipulation de tissus constitue l'un des derniers grands verrous non résolus de la robotique. Contrairement aux pièces rigides traitées en automobile ou en électronique, les textiles se déforment, se plissent et changent de géométrie entre chaque opération, rendant inutilisables les approches classiques à trajectoire fixe. Passer du stitching au bonding n'est pas qu'un choix de process : c'est une façon de réduire le nombre d'états intermédiaires que le robot doit gérer, ce qui rend le problème de manipulation conditionnellement plus tractable pour les VLA (Vision-Language-Action models) actuels. SoftWear Automation avait tenté une première vague d'automatisation textile avec ses robots Sewbot dès les années 2010, sans atteindre la scalabilité industrielle. Sewts (Munich) travaille sur des segments adjacents liés au tri et au dépliage. CreateMe se positionne en aval, sur l'assemblage final, là où la valeur ajoutée est la plus dense. Le sim-to-real gap sur les déformables reste le principal obstacle technique non résolu ; les prochaines annonces de l'entreprise seront à lire en distinguant soigneusement démos contrôlées et déploiements en conditions réelles.

UESewts (Munich) est mentionné comme acteur européen sur des segments adjacents (tri et dépliage textile), mais CreateMe n'a annoncé aucun déploiement ni partenariat en Europe.

RobotiqueOpinion
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
11arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

RobotiqueOpinion
1 source
3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D
12arXiv cs.RO 

3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2506.04436) un framework dénommé 3DThinkVLA, conçu pour doter les modèles vision-language-action (VLA) d'un raisonnement spatial 3D implicite lors de la prédiction d'actions robotiques, sans recours à des capteurs de profondeur ni à la génération de texte à l'inférence. Le système articule trois composants opérant dans l'espace latent : un module de perception géométrique 3D qui aligne les features visuelles intermédiaires avec un modèle fondationnel 3D, un module de distillation de raisonnement en ligne utilisant un "reasoning anchor token" partagé, et un mécanisme d'intégration d'actions spatialement augmenté. À l'entraînement, le modèle apprend à raisonner spatialement depuis des prompts enseignants explicites ; au déploiement, seuls des adaptateurs légers sont conservés, le modèle fondationnel 3D et la branche enseignante étant élagués. Les auteurs déclarent des performances état-de-l'art sur les benchmarks LIBERO, LIBERO-PLUS et SimplerEnv, ainsi que sur des tâches de manipulation réelles. L'apport principal est de découpler la perception géométrique 3D du raisonnement spatial de haut niveau pour les injecter à différents niveaux hiérarchiques, sans modifier l'architecture du backbone VLM. Ce découplage répond à un problème central des VLA actuels : leur tendance aux raccourcis d'action (action shortcuts) face aux relations spatiales complexes, ce qui dégrade les performances hors simulation. Le mécanisme d'anchor token transfère le raisonnement spatial implicitement, sans chain-of-thought au déploiement, réduisant la latence d'inférence. Pour les intégrateurs robotiques, cela ouvre la voie à des VLA plus robustes en manipulation de précision sans surcoût matériel. La méthode prévient également le catastrophic forgetting du VLM pré-entraîné, point critique lors du fine-tuning sur données robotiques spécialisées. Les VLA ont connu une accélération depuis Pi-0 de Physical Intelligence fin 2024 et GR00T N2 de NVIDIA en 2025, mais la gestion du raisonnement 3D à partir d'images 2D reste un obstacle au déploiement industriel fiable, notamment pour l'assemblage et la manipulation fine. 3DThinkVLA s'inscrit dans une lignée de travaux concurrents, dont SpatialVLA et RoboVLMs, cherchant à injecter des priors géométriques sans alourdir l'inférence. Il convient de noter qu'il s'agit d'un preprint arXiv non encore évalué par les pairs, et que les benchmarks LIBERO et SimplerEnv sont des environnements de simulation standardisés dont les résultats ne garantissent pas les performances en conditions industrielles réelles. Aucun déploiement terrain ni partenariat commercial n'est annoncé à ce stade.

RobotiqueActu
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
13arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

RobotiqueOpinion
1 source
Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle
14NVIDIA AI Blog 

Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle

NVIDIA Research présente cette semaine au CVPR 2026 trois nouveaux papiers de recherche qui partagent une ambition commune : entraîner des systèmes à grande échelle pour qu'ils généralisent au-delà de leurs cas d'usage initiaux. Le premier, GraspGen-X, est décrit comme le premier modèle fondamental pour la saisie robotique zéro-shot : entraîné sur deux milliards de saisies simulées couvrant des milliers de formes d'objets et de configurations de pinces, il est capable de générer des propositions de prise fiables pour n'importe quelle pince robotique, y compris des modèles qu'il n'a jamais rencontrés. Le deuxième papier, LCDrive, introduit une approche pour la conduite autonome qui remplace le raisonnement textuel par des représentations latentes compactes, permettant aux véhicules de raisonner plus vite sur le matériel embarqué réel. Enfin, NitroGen est un modèle fondamental d'IA de gameplay, construit sur l'architecture NVIDIA Isaac GR00T, qui aide à entraîner des agents incarnés dans des environnements virtuels sur des dizaines de milliers d'heures d'interaction. Ces trois travaux répondent à des verrous concrets qui freinent le déploiement de l'IA physique aujourd'hui. Pour la robotique, le problème était simple mais paralysant : chaque nouveau type de pince nécessitait un cycle complet de collecte de données, fine-tuning et validation. GraspGen-X élimine ce goulot d'étranglement en fonctionnant comme un grand modèle de langage appliqué à la géométrie, utilisable directement avec les pinces courantes sans réentraînement. En parallèle, LCDrive adresse une contrainte matérielle réelle des véhicules autonomes : le raisonnement par chaîne de pensée basé sur du texte génère des tokens qui coûtent du temps de calcul, un luxe que les processeurs embarqués dans les voitures ne peuvent pas se permettre en situation réelle. En remplaçant les mots par des représentations latentes, le système peut raisonner plus vite sur le même hardware. Ces annonces s'inscrivent dans une dynamique plus large chez NVIDIA, qui positionne l'IA physique comme le prochain grand chantier après les LLM. La conférence CVPR, l'une des plus importantes en vision par ordinateur, est un terrain de choix pour valider ces approches auprès de la communauté académique avant leur adoption industrielle. GraspGen-X s'intègre d'ailleurs avec curoboV2, une nouvelle bibliothèque de planification de mouvement accélérée par CUDA, et s'appuie sur des travaux antérieurs comme Grasp-MPC présenté à l'ICRA 2026. Pour les développeurs de robots et de véhicules autonomes, l'enjeu est de taille : réduire les cycles de développement grâce à des modèles fondamentaux capables de s'adapter à de nouveaux contextes sans repartir de zéro, une approche qui commence à prouver sa valeur dans le monde du langage et que NVIDIA ambitionne désormais d'imposer dans le monde physique.

UELes avancées en préhension robotique zéro-shot et en inférence embarquée pour véhicules autonomes pourraient bénéficier aux industriels européens de la robotique et de l'automobile cherchant à réduire les cycles de développement.

RobotiquePaper
1 source
NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
15NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

RobotiqueOpinion
1 source
NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
16MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
17arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

RobotiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
18arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

RobotiquePaper
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
19arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

RobotiqueOpinion
1 source
EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût
20arXiv cs.RO 

EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût

EaDex, un framework de manipulation dextère multi-corps présenté dans un preprint arXiv (2606.03268, juin 2026), propose d'entraîner des mains robotiques articulées à partir de démonstrations humaines capturées avec une simple caméra RGB-D grand public. Le pipeline repose sur le modèle paramétrique MANO pour reconstruire la géométrie 3D de la main, suivi d'une étape de normalisation et de retargeting cinématique vers différentes morphologies robotiques. Le système a été évalué sur trois mains dextères distinctes et trois catégories de tâches d'ouverture d'objets articulés, couvrant neuf configurations cross-embodiment. Par rapport à une baseline sans mécanisme d'annealing de démonstrations, EaDex affiche une amélioration relative de 55,3 %. Le verrou adressé est structurel pour le secteur: le reinforcement learning pur en manipulation dextère exige une exploration interactive à grande échelle, coûteuse en temps machine et difficile à transférer, tandis que l'imitation learning classique dépend de démonstrations à haute fidélité collectées via des gants haptiques ou des systèmes de motion capture onéreux. EaDex cherche à abaisser ce seuil avec du matériel accessible. Son mécanisme central, l'"annealing dynamique de démonstrations basé sur les récompenses de contact", est notable: il guide l'exploration initiale en s'appuyant sur les trajectoires humaines, puis réduit progressivement cette dépendance à mesure que l'agent accumule des contacts réussis, évitant le sur-ajustement aux trajectoires de référence. Que le même pipeline fonctionne sur trois architectures de main aux cinématiques différentes est le point le plus pertinent pour un intégrateur: cela suggère une généralisation morphologique réelle, pas un résultat ajusté manuellement par configuration. L'approche s'inscrit dans un effort plus large de la communauté pour rendre la collecte de données de manipulation bon marché et scalable, face à des méthodes concurrentes comme DAPG ou DexMimicGen qui requièrent des infrastructures plus lourdes. Le papier n'annonce pas de déploiement industriel ni de partenariat commercial: c'est un résultat de recherche en phase preprint, sans validation sur des objets non-vus ni en conditions réelles non-contrôlées. Les suites naturelles incluront des tests sur des tâches plus complexes (bimanuel, objets déformables) et une comparaison systématique avec des pipelines VLA récents sur des benchmarks standardisés.

RobotiquePaper
1 source
SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée
21arXiv cs.RO 

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

SplitAdapter est une architecture présentée sur arXiv (identifiant 2606.03297) visant à améliorer le contrôle de robots humanoïdes en loco-manipulation, soit la combinaison simultanée de la marche bipède et de la manipulation d'objets physiques. Le système part d'une politique de manipulation de boîtes préentraînée qu'il fige, puis lui greffe deux encodeurs de contexte indépendants : l'un capture les propriétés de la charge et de l'objet saisi, l'autre modélise les dynamiques internes du robot. Ces représentations sont injectées via une modulation FiLM hiérarchique (Feature-wise Linear Modulation), combinée à des objectifs split world-model et une régularisation cross-adversariale par gradient reversal (GRL). Les expériences couvrent des objets de 2, 4 et 6 kg, à des hauteurs de prise et de dépôt de 0, 30 et 60 cm, testés en sim-to-sim puis en déploiement sur robot réel. SplitAdapter améliore le taux de succès en tâche complète face à la politique de base et aux baselines FiLM à encodeur unique, avec les gains les plus marqués sous forte charge (6 kg). L'enjeu central est le transfert sim-to-réel sous charge variable : lorsqu'un humanoïde soulève un objet lourd, ses dynamiques changent sensiblement, et les adaptateurs existants qui fusionnent tous les signaux dans une seule représentation latente tendent à perdre en robustesse précisément dans les conditions les plus critiques. La factorisation proposée, un encodeur par source de variation, maintient une séparation explicite entre les incertitudes liées à l'objet et celles liées au robot, ce qui se révèle plus stable sous conditions extrêmes. Pour un intégrateur ou un OEM industriel, cela suggère qu'une politique généraliste préentraînée peut être adaptée modulairement selon la charge sans réentraînement complet, une propriété utile pour des lignes de production où les objets manipulés varient fréquemment. La loco-manipulation sur humanoïdes concentre des investissements massifs : Figure AI déploie son Figure 03 chez BMW, Boston Dynamics pousse Atlas en partenariat avec Hyundai, et des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) misent sur des politiques généralisables de type VLA (Vision-Language-Action). SplitAdapter prend un pari différent, adapter une politique spécialisée existante plutôt que d'en entraîner une nouvelle de bout en bout, ce qui réduit les coûts de calcul mais soulève la question de la généralisabilité hors distribution. Le papier est une préimpression arXiv soumise début juin 2026, non encore évaluée par les pairs ; aucun déploiement industriel ni pilote commercial n'est annoncé à ce stade.

RobotiquePaper
1 source
ModuLoop : génération de code bas niveau pour le contrôle robotique via synthétiseur modulaire et débogueur en boucle fermée
22arXiv cs.RO 

ModuLoop : génération de code bas niveau pour le contrôle robotique via synthétiseur modulaire et débogueur en boucle fermée

Un groupe de chercheurs a publié sur arXiv (2606.03047, juin 2026) la description d'un framework baptisé Closed-Loop Modular Code Synthesizer, également appelé ModuLoop, conçu pour générer automatiquement du code de contrôle bas niveau destiné à des robots physiques. L'approche repose sur un LLM pré-entraîné généraliste, utilisé sans aucun fine-tuning spécifique à la tâche : le modèle décompose le problème en modules, génère le code correspondant, l'exécute sur le système réel, puis insère des sondes de débogage pour observer le comportement en cours d'exécution. Cette boucle fermée itère jusqu'à produire un programme exécutable et stable. La validation porte sur deux scénarios concrets : la calibration d'une caméra RGB-D couplée à un bras robotique (problème dit eye-hand calibration), suivie d'une tâche pick-and-place exploitant directement la calibration obtenue. Les auteurs rapportent une haute précision d'exécution et un haut degré d'autonomie sur ces deux tâches, sans fournir de métriques chiffrées précises dans l'abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt principal de cette approche est d'adresser l'un des verrous les plus persistants de la robotique LLM : descendre au niveau du code bas niveau, là où la précision temporelle et la dépendance à l'environnement rendent les agents généralistes habituellement inefficaces. Contrairement aux modèles de type VLA (Vision-Language-Action) comme Pi-0, GR00T N2 ou Helix, qui nécessitent des phases d'entraînement ou de fine-tuning coûteuses, ModuLoop propose une architecture sans coût d'adaptation au domaine. Pour un intégrateur ou un OEM, cela ouvre la perspective d'automatiser des étapes de configuration et de calibration d'installations robotiques sans pipeline ML dédié. La boucle de débogage systématique est également une réponse directe au sim-to-real gap : le système apprend des erreurs d'exécution en conditions réelles plutôt qu'en simulation. Cette publication s'inscrit dans un courant de recherche actif depuis Code as Policies (Google, 2022) et les travaux PaLM-E, qui explorent les LLMs comme couche de planification et de génération de code pour la robotique. ModuLoop se distingue par son accent sur le débogage en boucle fermée plutôt que sur la seule génération. Côté concurrence, des approches comme CodeAct ou les travaux récents de Microsoft Research sur RobotCodeGen couvrent un espace similaire. L'article reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisation des résultats à des manipulateurs industriels multi-DOF ou à des environnements non structurés. Aucun déploiement terrain ni partenariat industriel n'est mentionné à ce stade.

RobotiquePaper
1 source
Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot
23arXiv cs.RO 

Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot

Une équipe de chercheurs présente Humanoid-GPT, un Transformer de style GPT avec attention causale, entraîné sur un corpus de 2 milliards de frames de capture de mouvement pour le contrôle du corps entier de robots humanoïdes. Publiée en juin 2026 sur arXiv (preprint, non encore évaluée par les pairs), l'étude décrit un pré-entraînement sur un corpus retargeté qui unifie l'ensemble des jeux de données mocap publics majeurs et des enregistrements internes à grande échelle. L'objectif central est la généralisation zero-shot: le modèle doit suivre des mouvements hautement dynamiques et s'adapter à des tâches de contrôle inédites sans réentraînement spécifique. L'approche s'attaque au compromis agility-generalization qui bride les trackers MLP peu profonds, architecture dominante jusqu'ici mais limitée par la rareté des données d'entraînement. En scalant simultanément les données et la capacité du modèle, Humanoid-GPT prétend résoudre ces deux dimensions avec un unique modèle génératif. Si ces résultats se confirment à la validation indépendante, le résumé restant vague sur les benchmarks exacts et les conditions expérimentales, cela réduirait concrètement le coût de déploiement pour les intégrateurs de systèmes humanoïdes qui doivent aujourd'hui entraîner des politiques séparées pour chaque tâche ou morphologie de robot. Cette contribution s'inscrit dans la tendance au scaling des politiques de contrôle humanoïde: NVIDIA avec GR00T N2, Physical Intelligence avec pi-0 et pi-0.5, ou Berkeley Humanoid ont chacun montré que les Transformers absorbent massivement des données de démonstration pour produire des politiques plus généralisables. Humanoid-GPT se positionne spécifiquement sur le motion tracking en amont des pipelines d'action, plutôt que sur la manipulation de bout en bout. L'absence d'affiliation institutionnelle visible dans le résumé et la nature preprint du document invitent à la prudence sur les affirmations de "new performance frontier"; les benchmarks comparatifs et la revue par les pairs seront déterminants pour l'adoption dans la communauté.

RobotiqueOpinion
1 source
BlueME : Ils ont créé la tech qui permet aux robots de communiquer à 700m sous la mer
24Le Big Data 

BlueME : Ils ont créé la tech qui permet aux robots de communiquer à 700m sous la mer

Des chercheurs de l'Université de Floride ont développé BlueME, une antenne magnétoélectrique compacte permettant à des robots sous-marins autonomes de communiquer entre eux sur plus de 700 mètres de profondeur. Dirigé par le Dr Md Jahidul Islam, spécialiste en robotique marine, le projet repose sur un réseau d'antennes qui vibrent à leur fréquence naturelle pour émettre des signaux électromagnétiques à très basse fréquence. La consommation énergétique du système est remarquablement faible : environ 10 watts à pleine puissance, soit moins qu'une caméra stéréo standard. Ces signaux traversent les eaux troubles, les sédiments et les environnements sous-marins les plus hostiles sans être perturbés par les particules en suspension ni les échos, contrairement aux technologies acoustiques ou laser actuellement utilisées. Cette percée répond à une limitation critique des drones sous-marins actuels : incapables d'échanger des données complexes en pleine mission, ils doivent régulièrement interrompre leurs opérations et remonter à la surface pour transmettre des informations ou recevoir de nouvelles consignes. BlueME élimine cette contrainte en offrant des communications robot-à-robot fiables et continues dans des profondeurs significatives. Les applications envisagées sont nombreuses et concrètes : les marines militaires pourraient déployer des essaims de drones coopératifs pour détecter des dangers sans exposer de personnel humain, les entreprises offshore pourraient automatiser l'inspection de pipelines sous-marins, et les scientifiques pourraient surveiller des écosystèmes marins en temps réel sans interruption de mission. L'origine de BlueME illustre la fécondité des collaborations interdisciplinaires inattendues. Le Dr Adam Khalifa, spécialiste des implants médicaux miniatures sans fil, a rejoint le projet en apportant une analogie surprenante : le corps humain, composé essentiellement d'eau légèrement salée, pose aux signaux sans fil des défis physiques similaires à ceux rencontrés en milieu sous-marin. L'eau salée absorbe rapidement les ondes radio, forçant habituellement le recours à des antennes volumineuses ou à des niveaux de puissance élevés pour maintenir une communication. En transposant les techniques développées pour faire transiter des signaux à travers les tissus humains, l'équipe a conçu une architecture radicalement différente. Alors que la course à l'autonomie des drones sous-marins s'intensifie, notamment dans les secteurs de la défense, de l'énergie et de la recherche océanographique, BlueME positionne l'Université de Floride comme un acteur clé d'une infrastructure de communication sous-marine qui reste aujourd'hui l'un des derniers grands angles morts des réseaux connectés mondiaux.

UELa technologie BlueME pourrait bénéficier aux acteurs européens du secteur offshore et de la surveillance sous-marine (inspection de pipelines, monitoring d'écosystèmes), mais reste à un stade de recherche universitaire sans déploiement industriel imminent en Europe.

RobotiqueActu
1 source
Mecka AI obtient 60 millions de dollars pour développer ses robots IA
25Le Big Data 

Mecka AI obtient 60 millions de dollars pour développer ses robots IA

La startup new-yorkaise Mecka AI a annoncé le 1er juin 2026 une levée de fonds totale de 60 millions de dollars pour accélérer le développement de son infrastructure de données destinée à la robotique intelligente. Ce financement se décompose en deux tours menés par Framework Ventures : une série A de 25 millions de dollars bouclée en novembre 2025, suivie d'un second tour de 35 millions. Parmi les autres investisseurs figurent Menlo Ventures, SV Angel, Kindred Ventures et Ted Xiao, ancien chercheur chez Google DeepMind. La société affirme déjà avoir sécurisé des contrats lui permettant de viser 100 millions de dollars de revenus annuels. Fondée par Josh Gao et Mogen Cheng, qui n'ont aucun passé dans les grands laboratoires d'IA mais viennent de la fintech et de la crypto, Mecka AI développe des dispositifs propriétaires combinant capteurs corporels et iPhone pour enregistrer à grande échelle les gestes, déplacements et interactions physiques des humains. L'enjeu central est de résoudre un problème fondamental de la robotique moderne : le manque de données dites "incarnées". Contrairement à l'IA générative, qui s'entraîne sur du texte, des images ou de l'audio, un robot qui doit agir dans le monde physique a besoin de comprendre comment un corps humain coordonne ses mouvements. Mecka AI transforme ces comportements en données d'entraînement structurées, offrant aux modèles robotiques une base plus naturelle et plus riche que la téléopération classique, où un humain pilote directement le robot pour générer des exemples d'apprentissage. Cette approche pourrait accélérer le développement de robots polyvalents capables d'opérer dans des environnements non contrôlés, de l'entrepôt logistique au domicile. Le financement de Mecka AI s'inscrit dans un repositionnement plus large du capital-risque technologique. Après des années d'investissements massifs dans les grands modèles de langage, une fraction croissante du capital se déplace vers l'IA physique, ce segment qui cherche à connecter les capacités algorithmiques à des actions concrètes dans le monde réel. Wayve, de son côté, entraîne ses systèmes de conduite autonome sur des flux vidéo embarqués, tandis que MicroAGI collecte des données dans des foyers américains pour sa robotique domestique. Mecka AI ambitionne d'industrialiser cette collecte à travers des verticales multiples et d'en faire une couche d'infrastructure partagée pour l'ensemble de l'écosystème robotique. L'originalité du profil de ses fondateurs, venus de la fintech plutôt que de la recherche académique, suggère une approche davantage orientée vers la scalabilité commerciale que vers la publication scientifique.

RobotiqueOpinion
1 source
Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie
26Le Big Data 

Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie

Nvidia a présenté Cosmos 3 lors du GTC de Taipei le 1er juin 2026, en parallèle de son robot humanoïde Isaac GROOT. Il s'agit du premier omnimodèle entièrement open source dédié à l'IA physique, disponible en deux variantes dès le lancement : une version "Super" de 32 milliards de paramètres, optimisée pour la précision dans des tâches comme la robotique et la conduite autonome, et une version "Nano" de 8 milliards de paramètres, conçue pour des inférences rapides. Une troisième déclinaison "Edge", utilisable directement sur des appareils locaux sans connexion cloud, est annoncée prochainement. Le modèle a été entraîné sur un corpus colossal de 20 000 milliards de tokens incluant près d'un milliard d'images, 400 millions de vidéos réelles et générées, des données audio ambiantes, du texte, ainsi que des traces d'actions captées sur des humains et des robots. Parmi les premiers partenaires industriels figurent Agile Robots, Black Forest Labs et Runway. Ce qui distingue Cosmos 3 des générateurs vidéo ou des modèles multimodaux classiques, c'est sa capacité native à comprendre et produire des actions, et pas seulement des représentations visuelles. Le système peut générer des données concrètes comme les angles d'articulations d'un robot, des trajectoires ou des positions de pinces mécaniques, directement exploitables pour entraîner des machines à interagir avec le monde physique. Ming-Yu Liu, vice-président du Cosmos Lab chez Nvidia, a insisté sur ce point : modéliser les mouvements des machines, et non seulement l'apparence des environnements, est la clé des systèmes autonomes réellement opérationnels. Autre avantage majeur : Cosmos peut simuler des scénarios rares ou dangereux, comme des collisions robotiques ou des incidents routiers atypiques, qui sont coûteux et risqués à reproduire en conditions réelles. Nvidia affirme que des tâches d'entraînement qui demandaient auparavant plusieurs mois pourraient désormais être réalisées en quelques jours. La publication de Cosmos 3 en open source s'inscrit dans la stratégie de Nvidia de construire un écosystème ouvert autour de l'IA physique, dans la lignée de sa famille de modèles Nemotron. En rendant le modèle librement adaptable, l'entreprise cherche à accélérer l'adoption industrielle tout en captant les retours du terrain pour orienter ses futures versions. Ce lancement intervient dans un contexte de compétition intense autour des fondations logicielles de la robotique et des véhicules autonomes, secteurs dans lesquels Google, Tesla et plusieurs startups chinoises investissent massivement. En positionnant Cosmos comme l'infrastructure commune de l'IA physique, Nvidia tente de reproduire dans le monde des machines intelligentes le rôle dominant que CUDA joue depuis vingt ans dans le calcul GPU.

UELes laboratoires et entreprises européens de robotique et de conduite autonome peuvent désormais exploiter un modèle de fondation open source de référence pour l'IA physique, réduisant les coûts d'entraînement et la dépendance au cloud.

💬 C'est la comparaison avec CUDA qui dit tout : Nvidia ne veut pas vendre des GPU pour la robotique, il veut être l'infrastructure qu'on ne peut plus éviter. Cosmos 3 en open source, c'est le même coup que PyTorch, tu ouvres pour capter l'écosystème avant de le monétiser. Reste à voir si les labos européens ont vraiment les ressources pour en tirer parti.

RobotiqueActu
1 source
Robots domestiques : la collecte de données d’entraînement passe par le ménage gratuit
27Next INpact 

Robots domestiques : la collecte de données d’entraînement passe par le ménage gratuit

La startup allemande MicroAGI a lancé à New York un service baptisé Shift qui propose le nettoyage gratuit d'appartements par des professionnels, en échange d'un consentement précis : les agents portent des caméras filmant chacun de leurs gestes pendant l'intervention. Ces vidéos constituent des données d'entraînement pour des intelligences artificielles destinées à piloter des robots domestiques. L'entreprise rémunère par ailleurs des volontaires 20 dollars de l'heure pour enregistrer leurs tâches quotidiennes chez eux ou au travail. Au premier trimestre 2026, MicroAGI affirme avoir versé plus de 5 millions de dollars à 10 000 "opérateurs" répartis dans une dizaine de pays. Ce modèle répond à un problème structurel que toute l'industrie de la robotique humanoïde bute sur le même mur : l'absence de corpus de données équivalent à ce dont disposent les modèles de langage. Là où une IA générative peut s'alimenter de milliards de textes produits par l'humanité, un robot domestique a besoin de voir des milliers d'heures de mains humaines en train de frotter, plier, trier, saisir. Le constructeur 1X l'a illustré concrètement avec son humanoïde Neo, qui dépend encore régulièrement d'un téléopérateur humain pour accomplir certaines tâches chez le client. Shift contourne le problème en finançant la collecte par la valeur même des enregistrements, transformant le nettoyage en une transaction data contre service. La question de la vie privée est au coeur du modèle, et MicroAGI la gère avec des promesses techniques et juridiques dont la robustesse reste à éprouver. Les caméras floutent automatiquement visages, documents, écrans et pièces d'identité directement à la capture, avant tout téléversement. L'entreprise invoque le RGPD pour garantir un droit à l'effacement, mais considère simultanément que les données anonymisées échappent au champ des lois sur la protection des données, une position juridique contestable. Shift s'inscrit dans une tendance plus large de "travail du clic" appliqué à la robotique, où des entreprises comme Scale AI ou Labeling Tech ont construit des modèles comparables pour d'autres types de données. Avec des investissements massifs dans les humanoïdes chez Figure, Apptronik ou Tesla, la compétition pour ces corpus d'entraînement va s'intensifier, et les appartements new-yorkais ne seront vraisemblablement pas les derniers à servir de terrain de collecte.

UELa startup allemande MicroAGI invoque le RGPD pour légitimer sa collecte de données dans des domiciles privés, mais sa position juridique sur l'anonymisation des données est contestable et pourrait attirer l'attention des autorités européennes de protection des données.

RobotiqueOpinion
1 source
Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave
28Le Big Data 

Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave

Nvidia a présenté le 1er juin 2026, lors du Computex à Taipei, son robot humanoïde de référence baptisé Isaac GR00T Reference Humanoid Robot. Développé en partenariat avec Unitree, spécialiste chinois de la robotique, et Sharpa, entreprise singapourienne experte en mains robotiques, ce système repose sur le corps humanoïde H2 Plus d'Unitree, 1,80 mètre, 68 kilogrammes, 31 degrés de liberté. Les mains tactiles à cinq doigts de Sharpa ajoutent 22 degrés de liberté chacune, portant le total à 75 points d'articulation sur l'ensemble du corps. Chaque bras peut soulever 7 kilogrammes en continu, avec des pics à 15 kilogrammes. Le cerveau du système est le calculateur Jetson Thor, basé sur l'architecture Blackwell de Nvidia, capable de dépasser 2 000 téraflops dédiés à l'IA. Le robot embarque le modèle GR00T 1.7 dès sa sortie de boîte, et une batterie de 0,972 kWh offrirait environ trois heures d'autonomie, selon des sources non confirmées officiellement par Nvidia. L'enjeu de cette annonce dépasse largement le robot lui-même. Nvidia ne vend pas un produit commercial destiné aux entreprises ou aux particuliers, mais une plateforme de référence pour la recherche. L'idée est de fournir aux laboratoires un socle matériel et logiciel unifié, comparable à ce qu'un PC de référence représente pour l'informatique grand public : éviter que chaque équipe perde des mois à assembler et intégrer ses propres composants, pour se concentrer sur ce qui compte, à savoir développer des algorithmes, des comportements et des capacités cognitives. Stanford Robotics Center, ETH Zurich, Ai2 de Seattle et le laboratoire de robotique de l'UC San Diego figurent parmi les premiers partenaires confirmés. La disponibilité pour les développeurs et laboratoires intéressés est prévue d'ici fin 2026. Cette initiative s'inscrit dans une bataille industrielle et géopolitique de grande ampleur autour de la robotique humanoïde. Des acteurs comme Boston Dynamics, Figure, Tesla avec Optimus, ou encore 1X Technologies investissent massivement dans ce domaine, perçu comme le prochain grand marché de l'IA physique. Nvidia, jusqu'ici positionné comme fournisseur de puissance de calcul, tente avec Isaac GR00T de devenir la couche d'infrastructure incontournable de toute la filière robotique mondiale. L'absence notable d'institutions chinoises parmi les premiers partenaires, alors même qu'Unitree est un acteur chinois central du projet, révèle la tension géopolitique qui traverse ce secteur. En standardisant la plateforme de recherche, Nvidia espère non seulement accélérer les progrès scientifiques, mais aussi s'imposer comme le standard de référence avant que ses concurrents ne définissent les leurs.

UEETH Zurich figure parmi les premiers laboratoires partenaires confirmés, ouvrant aux chercheurs européens un accès potentiel à cette plateforme de référence en robotique humanoïde d'ici fin 2026.

💬 Ce qui m'intéresse, c'est pas le robot, c'est le coup qu'essaie de rejouer Nvidia. Imposer une plateforme de référence à la recherche avant que le marché se structure, c'est exactement comme ça que CUDA est devenu incontournable il y a vingt ans. L'absence des labos chinois dans les premiers partenaires alors qu'Unitree est au coeur du hardware, ça dit tout sur où se joue vraiment la bataille.

RobotiqueOpinion
1 source
PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions
29arXiv cs.RO 

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Des chercheurs présentent PACE (Phase-Aware Chunk Execution), une méthode d'exécution sans réentraînement publiée sur arXiv (2606.00537) qui s'applique aux politiques robotiques exploitant l'action chunking. Le principe de l'action chunking, popularisé par des architectures comme ACT et les politiques de diffusion, consiste à faire prédire au modèle une séquence d'actions futures en bloc, dont seul un préfixe est exécuté en boucle ouverte avant de re-interroger le modèle. Le paramètre clé, l'horizon d'exécution (combien d'étapes du bloc sont jouées avant la prochaine observation), est jusqu'ici fixé statiquement. PACE le détermine dynamiquement en analysant le profil de vitesse prédit : les points de transition basse vitesse dans la trajectoire correspondent aux frontières naturelles entre phases de manipulation, et PACE les utilise comme candidats au replanning. La méthode a été validée sur 50 tâches RoboTwin 2.0 (passage de 57,8 % à 64,2 % de taux de succès), et sur robots réels avec une plateforme bimanuelle ALOHA et un bras Franka single-arm (score moyen 60,7 à 77,7, taux de succès 50,7 % à 70,4 %). Un gain de près de 20 points de pourcentage en conditions réelles sans modifier ni réentraîner le modèle sous-jacent est un résultat notable pour le secteur. Il confirme que le goulot d'étranglement ne réside pas toujours dans la qualité intrinsèque de la politique VLA ou diffusion, mais dans la stratégie de déploiement elle-même. PACE s'insère en plug-and-play au-dessus de n'importe quelle politique existante, sans accès aux poids ni aux couches internes, ce qui en fait un outil immédiatement utilisable par les intégrateurs et les équipes de mise en production, sans investissement en données ou calcul supplémentaire. L'action chunking s'est imposé comme standard d'exécution depuis les travaux sur ACT (Stanford, 2023) et les politiques de diffusion (Chi et al.), repris dans des systèmes comme pi-0 de Physical Intelligence ou les architectures OpenVLA. La rigidité de l'horizon fixe est un problème connu, et plusieurs approches ont tenté de l'adresser via du replanning conditionnel ou de la détection d'anomalies. PACE choisit une voie plus simple : exploiter uniquement le bloc d'actions déjà prédit, sans capteur ni signal externe. La prochaine étape logique sera de tester cette approche sur des politiques à plus haute fréquence comme GR00T N2 de NVIDIA ou les architectures hybrides VLA-diffusion qui émergent chez des acteurs comme Enchanted Tools en Europe, où la latence de replanning reste un verrou industriel.

UEEnchanted Tools et les équipes robotiques européennes déployant des politiques VLA ou de diffusion pourraient bénéficier directement de PACE pour améliorer leurs taux de succès en production sans coût de réentraînement ni d'accès aux poids du modèle.

💬 +20 points de taux de succès sur robot réel sans toucher au modèle, c'est le genre de résultat qui fait réfléchir sur où on met vraiment l'effort en robotique. L'idée est belle : plutôt que d'entraîner encore, on optimise le quand on replanifie, en lisant les creux de vitesse dans la trajectoire déjà prédite. Plug-and-play, sans accès aux poids, ça va intéresser sérieusement les équipes qui font de l'intégration prod, Enchanted Tools en tête.

RobotiqueOpinion
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
30arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

RobotiqueOpinion
1 source
Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements
31arXiv cs.RO 

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Des chercheurs présentent MPVI (Motion Planner / VLA Interleaving), une architecture hybride qui intègre la planification de mouvement classique dans les modèles VLA (Vision-Language-Action) pour renforcer leur robustesse en manipulation mobile sans nécessiter de données supplémentaires. Publiée sur arXiv (2606.00985), cette approche s'attaque à un problème documenté des VLA : leur difficulté à enchaîner des séquences longues de sous-tâches spatialement distribuées. Sur le benchmark BEHAVIOR-1K, MPVI affiche une amélioration de 113 % de la progression des tâches par rapport au meilleur VLA bout-en-bout de référence, sans aucun ré-entraînement du modèle de base. Le diagnostic des auteurs est net : dans les tâches à long horizon, les erreurs d'exécution précoces s'amplifient à mesure que la séquence s'allonge, et le fine-tuning sur de larges volumes de données téléopérées humaines n'y change rien. MPVI découple la navigation et la manipulation : un planificateur classique prend en charge la localisation et le déplacement vers des objets distants ou occultés, en s'appuyant sur la détection à vocabulaire ouvert et l'exploration de frontière, tandis que le VLA gère les manipulations de précision. La commutation entre les deux modules est pilotée par un mécanisme de vérification d'état via un modèle vision-langage (VLM), couplé à des déclencheurs proprioceptifs, sans entraînement supplémentaire. La course aux architectures VLA bout-en-bout est aujourd'hui dominée par Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses successeurs, et des initiatives comme LeRobot de Hugging Face, toutes misant sur des données à grande échelle pour gagner en généralité. MPVI s'inscrit dans un courant concurrent qui défend l'hybridation avec la robotique classique planifiée, une position partagée notamment par les travaux SayCan de Google Research. Le benchmark BEHAVIOR-1K, développé à Stanford et évalué en simulation, est conçu pour mesurer la robustesse sur des tâches domestiques variées et longues, ce qui en fait un terrain de test exigeant. Les auteurs ne revendiquent aucun déploiement physique réel : MPVI reste à ce stade une contribution académique, sans plateforme hardware ni partenaire industriel annoncé.

UEHugging Face (entreprise française) est cité comme acteur de référence dans l'espace VLA avec LeRobot, mais MPVI reste une contribution académique en simulation sans déploiement ni partenariat européen annoncé.

RobotiqueOpinion
1 source
GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées
32arXiv cs.RO 

GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées

GraspGen-X est un modèle de préhension robotique 6-DOF (six degrés de liberté) publié sur arXiv le 2 juin 2026, conçu pour opérer en cross-embodiment : contrairement aux approches précédentes limitées à des préhenseurs spécifiques, il généralise simultanément à de nouveaux objets, de nouvelles scènes, et de nouvelles morphologies de préhenseurs. Le modèle étend les générateurs de préhension basés sur la diffusion en conditionnant la génération sur une représentation du préhenseur encodée via une heuristique de "volume balayé" (swept-volume), qui capture la géométrie du préhenseur pendant son mouvement d'approche. L'entraînement s'appuie sur un dataset massif de 2 milliards de préhensions générées avec des préhenseurs procéduraux synthétiques. Dans les expériences en simulation, GraspGen-X obtient les meilleures performances en généralisation zéro-shot vers des préhenseurs réels inédits, surpassant les méthodes de référence. Le modèle constitue également un bon point de départ pour le fine-tuning sur de nouveaux préhenseurs, ce qui réduit le coût d'adaptation. Pour les intégrateurs robotiques, c'est un signal concret : la perspective d'un module de préhension unique déployable sur plusieurs plateformes (bras industriels, manipulateurs collaboratifs, mains anthropomorphes) sans réentraînement complet compresse significativement les coûts d'intégration. La capacité à transférer du simulateur vers le réel sur des préhenseurs jamais vus à l'entraînement adresse directement le sim-to-real gap en manipulation, longtemps identifié comme verrou pour les architectures VLA (Vision-Language-Action) appliquées à la saisie d'objets. La recherche en 6-DOF grasping s'est longtemps structurée autour d'approches liées à des géométries de préhenseur fixes, de GraspNet à GQ-CNN en passant par les travaux de Columbia et du MIT sur la synthèse de prises. Les modèles de diffusion pour la préhension ont émergé récemment comme alternative générative, mais restaient mono-embodiment. GraspGen-X s'inscrit dans la tendance plus large des modèles fondationnels pour la robotique, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui visent la généralisation multi-tâches et multi-plateformes. Le papier reste pour l'instant une preuve de concept académique sans déploiement industriel annoncé; la prochaine étape naturelle serait une validation à plus grande échelle sur des préhenseurs physiques variés et l'intégration dans des pipelines de manipulation complets.

RobotiqueOpinion
1 source
IA incarnée : intégration du risque sémantique dans les champs de distance et les CBF pour un contrôle monoculaire en ligne
33arXiv cs.RO 

IA incarnée : intégration du risque sémantique dans les champs de distance et les CBF pour un contrôle monoculaire en ligne

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.01605) un framework de navigation sûre qui intègre le risque sémantique directement dans la représentation spatiale utilisée par les contrôleurs basés sur les Control Barrier Functions (CBF). Le système fonctionne à partir d'une unique caméra RGB monoculaire, reconstruit la géométrie 3D dense en temps réel via un front-end SLAM fondé sur un modèle de fondation, puis fusionne une segmentation sémantique par pixel dans cette géométrie. Le tout est converti en un champ de distance signé euclidien (ESDF) enrichi sémantiquement, où chaque classe d'obstacles impose un gonflement spatial proportionnel à son niveau de risque avant le calcul du champ. Le pipeline tourne en ligne à 10-20 Hz et a été validé en simulation et sur du matériel réel, en téléopération et en navigation autonome. L'intérêt opérationnel est précis : les architectures CBF classiques appliquent la même marge de sécurité à tous les obstacles cartographiés, qu'il s'agisse d'une pile de cartons ou d'un opérateur humain. En encodant le risque sémantique dans l'ESDF avant l'optimisation du contrôleur, et non en ajustement aval, les objets à risque élevé exercent une influence spatiale plus grande dès la représentation du monde. Pour un intégrateur ou un COO industriel, cela signifie un robot capable de moduler automatiquement ses marges de sécurité selon le contexte sans reconfiguration manuelle des paramètres de contrôle, ce qui est pertinent pour des environnements mixtes homme-machine. Les CBF sont un outil mathématique bien établi pour garantir la sécurité des systèmes dynamiques, et leur usage dans la robotique mobile croît depuis une dizaine d'années. La littérature existante exploitait déjà les ESDF pour alimenter ces contrôleurs, mais la fusion sémantique restait marginale ou traitée en post-processing. Ce travail reste au stade preprint sans déploiement industriel annoncé, et les vidéos de démonstration sélectionnées ne permettent pas d'évaluer la robustesse en conditions réelles dégradées. Les prochaines étapes naturelles sont l'évaluation sur des scènes avec occultations et des classes d'obstacles plus nombreuses, ainsi qu'une comparaison quantitative avec des baselines sémantiques concurrentes.

RobotiquePaper
1 source
OneVLA : un cadre unifié pour les tâches d'IA incarnée
34arXiv cs.RO 

OneVLA : un cadre unifié pour les tâches d'IA incarnée

Une équipe de recherche a publié fin mai 2026 sur arXiv (référence 2606.01241) un modèle baptisé OneVLA, présenté comme une architecture unifiée Vision-Langage-Action (VLA) capable de gérer à la fois la navigation autonome et la manipulation d'objets au sein d'un seul et même réseau. Le principe central repose sur une tête d'action commune qui génère des commandes de déplacement et des gestes de manipulation sans module séparé ni variante spécialisée selon la tâche. L'entraînement suit une stratégie progressive en plusieurs étapes, avec construction de jeux de données curés et un fine-tuning par Chain-of-Thought (CoT) visant à créer un transfert positif entre les deux domaines. Les expériences rapportées couvrent des environnements simulés et réels, et les auteurs affirment surpasser les modèles spécialisés à tâche unique ainsi que les approches cross-task existantes. Le code source et les poids du modèle sont annoncés comme devant être rendus publics, sans date précisée. L'enjeu est structurel pour le secteur : la quasi-totalité des VLA actuellement déployés ou publiés restent monolithiques par domaine. Pi-0 de Physical Intelligence excelle en manipulation dextère, GR00T N2 de NVIDIA intègre des capacités de navigation mais avec des têtes d'action distinctes, et la plupart des agents issus des travaux RT-X ou OpenVLA ne combinent pas les deux modalités de façon cohérente. Un modèle qui transfère positivement entre navigation et manipulation éviterait aux équipes d'intégration de maintenir deux pipelines d'inférence séparés, un coût opérationnel significatif en production. Le CoT appliqué à la planification motrice est également notable : il indique que le raisonnement symbolique peut renforcer la généralisation comportementale, une hypothèse jusqu'ici difficile à valider à l'échelle réelle. Ce travail s'inscrit dans une tendance de fond amorcée depuis 2024 vers les architectures dites "fondation" pour la robotique généraliste. Les limitations à signaler : il s'agit d'un preprint sans revue par les pairs, les benchmarks précis de performance (taux de succès par scénario, temps de cycle, conditions d'éclairage ou de charge) ne sont pas détaillés dans l'abstract, et aucune institution commerciale ni déploiement industriel n'est mentionné. Les prochaines étapes naturelles seraient la publication du code pour permettre une évaluation indépendante, ainsi qu'une validation sur plateformes humanoïdes réelles, là où la fusion navigation-manipulation est la plus critique pour des cas d'usage entrepôt ou logistique.

RobotiqueOpinion
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
35arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

RobotiqueOpinion
1 source
WALL-WM : modélisation des actions du monde aux points d'articulation d'événements
36arXiv cs.RO 

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.01955) les travaux portant sur WALL-WM, un World Action Model (WAM) qui propose de repenser la manière dont les modèles Vision-Language-Action (VLA) sont entraînés pour la robotique généraliste. Là où les approches dominantes, comme celles exploitées par Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2), optimisent des "chunks" d'actions à longueur fixe conditionnés sur l'observation courante, WALL-WM substitue à cette unité temporelle arbitraire l'événement sémantique : une séquence d'actions cohérente du point de vue du sens (attraper un objet, ouvrir un tiroir), extraite automatiquement par des légendes au niveau événementiel et un échantillonnage cluster-balancé. Le modèle expose deux modes d'inférence : un mode "event" qui consomme des descriptions de l'événement suivant et produit des chunks à longueur variable, et un mode "unified" qui applique un mécanisme baptisé Staircase Decoding pour conserver une inférence à longueur fixe tout en maintenant un chemin VLA à gradient continu. Le tout est entraîné à grande échelle via l'optimiseur Muon, et les auteurs revendiquent des performances état de l'art sur une évaluation de généralisation en monde réel à large échelle, sans préciser les benchmarks ni les données de déploiement. L'intérêt de l'approche réside dans le diagnostic qu'elle formule : le désalignement de granularité entre langage (objectifs sémantiques), vision (dynamique de scène continue) et actions (timescales de contrôle) transforme l'entraînement VLA classique en simple fitting de corrélations à court horizon, ce qui explique les difficultés de généralisation observées hors distribution. En traitant l'événement comme unité atomique d'apprentissage, WALL-WM offre une piste sérieuse pour réduire le sim-to-real gap et améliorer le transfer sur des tâches et des scènes non vues, deux verrous majeurs qui bloquent le passage à l'échelle industrielle des robots manipulateurs. Il convient cependant de rester prudent : il s'agit d'un preprint sans revue par les pairs, sans données de déploiement terrain, et sans détail sur les benchmarks précis utilisés pour établir la supériorité annoncée. WALL-WM s'inscrit dans une vague de recherche sur les WAMs qui a pris de l'ampleur depuis 2024, portée notamment par Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2 et ses successeurs, et NVIDIA avec GR00T N2 pour les humanoïdes. Ces modèles partagent l'ambition de pré-entraîner des politiques robotiques générales sur des données hétérogènes avant de les affiner par tâche. La contribution de WALL-WM est théoriquement propre et l'infrastructure Muon suggère un effort de calcul significatif, mais l'absence de résultats quantitatifs détaillés dans le résumé limite l'évaluation externe. Les prochaines étapes attendues sont une publication complète avec benchmarks reproduisibles (LIBERO, OpenVLA-OFT, RoboMimic) et, idéalement, des partenariats industriels pour validation en environnement de production.

RobotiqueOpinion
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
37Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

RobotiqueOpinion
1 source
Uber : des robotaxis en Europe dès 2026
38Frandroid 

Uber : des robotaxis en Europe dès 2026

Uber a officialisé lors de la conférence Nvidia GTC Taipei un partenariat tripartite avec la startup israélienne Autobrains et le géant américain des puces Nvidia. L'objectif annoncé est concret : déployer des robotaxis commerciaux à Munich d'ici la fin de l'année 2026. La particularité technique de ce système réside dans l'absence totale de lidar, capteur laser coûteux habituellement jugé indispensable dans la conduite autonome, au profit d'une approche reposant exclusivement sur la vision par caméras et les algorithmes d'Autobrains. Ce déploiement européen marquerait une étape significative pour Uber, qui a vendu son propre programme de véhicules autonomes (Advanced Technologies Group) à Aurora en 2020 pour se repositionner comme plateforme de distribution. Nouer des alliances avec des développeurs tiers lui permet de rester dans la course sans porter les risques R&D. Pour Munich et plus largement l'Europe, l'enjeu est aussi réglementaire : une homologation réussie en Allemagne, pays aux standards de sécurité exigeants, ouvrirait la voie à d'autres marchés du continent. Autobrains, fondée en 2018 et soutenue par des investisseurs comme BMW et Continental, mise sur une approche dite "bio-inspirée" qui imite l'apprentissage humain sans dépendre de cartographies précises. Le choix de Taipei comme cadre d'annonce souligne l'importance stratégique de Nvidia comme fournisseur d'infrastructure compute pour l'ensemble de l'écosystème autonome. Uber affronte sur ce terrain Waymo, Cruise et les acteurs chinois comme WeRide ou Pony.ai, déjà présents ou en cours de déploiement en Europe.

UELe déploiement prévu à Munich fin 2026 constitue un test réglementaire direct pour l'Europe : une homologation réussie en Allemagne, pays aux normes de sécurité parmi les plus strictes du continent, ouvrirait la voie à l'expansion des robotaxis commerciaux sur d'autres marchés européens.

RobotiqueOpinion
1 source
Accusée de saccager des Airbnb pour tester ses robots, une startup fait face à des poursuites
39Ars Technica AI 

Accusée de saccager des Airbnb pour tester ses robots, une startup fait face à des poursuites

Une startup de robotique de la Bay Area, The Bot Company, fait face à des poursuites judiciaires après que des dommages importants auraient été causés dans la maison d'un hôte Airbnb lors de séances de tests de prototypes. Le 26 mai 2026, Sean Donovan a déposé une plainte réclamant plus de 12 000 dollars de dédommagement à l'entreprise basée à San Francisco. L'affaire, révélée en premier par SFGate qui a également interviewé Donovan, porte sur des dégâts constatés dans ce qui était autrefois la maison d'enfance du plaignant, louée via Airbnb par des employés de la startup. Les premiers signes que ces locataires n'étaient pas de simples travailleurs tech en déplacement sont apparus lorsque Donovan est passé gérer les poubelles pendant le séjour. Il a découvert des câbles entortillés partout dans la maison, ainsi qu'un robot qu'il a décrit comme une sorte de "Roomba de deux mètres sur chenilles", évoquant également les Borgs cybernétiques de l'univers Star Trek. Ce que Donovan a trouvé à son retour constitue le cœur du litige : des dommages matériels étendus qu'il attribue directement aux activités de test menées à l'intérieur du logement. Cette affaire soulève une question juridique et éthique nouvelle dans le secteur de la robotique en pleine expansion : jusqu'où les startups peuvent-elles aller pour tester leurs machines dans des environnements réels ? L'utilisation de locations courte durée comme terrain d'expérimentation clandestine pourrait exposer d'autres entreprises du secteur à des risques similaires. The Bot Company, dont on sait peu de chose publiquement, se retrouve au cœur d'un précédent judiciaire qui pourrait contraindre l'ensemble de l'industrie à formaliser des protocoles de test plus transparents, et forcer les plateformes comme Airbnb à clarifier leurs conditions d'utilisation face à des usages commerciaux non déclarés.

RobotiqueActu
1 source
« Des dizaines de milliards de robots d’ici 10 à 20 ans » : la prédiction folle de Nvidia
40Frandroid 

« Des dizaines de milliards de robots d’ici 10 à 20 ans » : la prédiction folle de Nvidia

Un cadre dirigeant de Nvidia a affirmé que le nombre de robots sur Terre dépassera un jour celui des êtres humains, prédisant l'émergence de dizaines de milliards d'appareils dans un horizon de dix à vingt ans. Cette déclaration, rapportée par Frandroid, illustre l'ambition vertigineuse avec laquelle le géant américain des semi-conducteurs positionne désormais la robotique physique au coeur de sa stratégie de croissance. L'enjeu dépasse largement la provocation chiffrée : Nvidia cherche à s'imposer comme la colonne vertébrale computationnelle de la prochaine vague industrielle. L'entreprise a déjà lancé Project GR00T, un modèle fondateur pour robots humanoïdes, et sa plateforme Isaac pour la simulation et l'entraînement robotique. Si des dizaines de milliards de robots nécessitent des puces, des logiciels et des infrastructures d'entraînement, Nvidia se retrouve en position de fournisseur incontournable, reproduisant à l'échelle physique le rôle qu'elle joue aujourd'hui dans l'IA générative. Cette prédiction s'inscrit dans une course mondiale où Tesla, Figure AI, 1X Technologies et Boston Dynamics parient tous sur l'humanoides à grande échelle. Les gouvernements chinois et américain y voient un enjeu de souveraineté industrielle. La question n'est donc plus de savoir si les robots envahiront les usines, les entrepôts et les foyers, mais à quelle vitesse, et qui contrôlera la chaîne de valeur, des capteurs aux modèles d'IA embarqués, en passant par les puces qui les font tourner.

RobotiqueOpinion
1 source
Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source
41The Decoder 

Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source

Lors du GTC Taipei, Nvidia a dévoilé plusieurs modèles destinés à accélérer son offensive dans l'IA physique. La conférence a été marquée par trois annonces majeures : Cosmos 3, un nouveau modèle de monde (world model) de dernière génération, Alpamayo 2 Super, une version considérablement élargie du modèle de conduite autonome, et une plateforme de référence ouverte pour robots humanoïdes. Ces annonces s'inscrivent dans la stratégie de Jensen Huang de faire de Nvidia le fournisseur incontournable de l'infrastructure pour les systèmes physiques intelligents. Ces outils visent des marchés en pleine explosion : la robotique industrielle, les véhicules autonomes et les systèmes de surveillance vidéo intelligents. Un world model comme Cosmos 3 permet à des robots ou des voitures autonomes de simuler leur environnement et d'anticiper les conséquences de leurs actions, une brique fondamentale pour passer de la démonstration laboratoire au déploiement à grande échelle. La plateforme humanoïde ouverte, quant à elle, vise à standardiser le développement matériel et logiciel pour les constructeurs de robots à deux jambes, réduisant les coûts d'entrée pour les startups du secteur. Nvidia capitalise ici sur sa domination dans les GPU d'entraînement pour étendre son empreinte vers l'inférence embarquée et les systèmes temps-réel. La concurrence s'intensifie avec des acteurs comme Qualcomm et Intel sur les puces pour véhicules autonomes, tandis que des entreprises comme Figure, Boston Dynamics ou 1X Technologies attendent des plateformes logicielles communes pour accélérer leurs développements. GTC Taipei confirme que Nvidia ne veut pas seulement alimenter les data centers de l'IA, il veut aussi être le cerveau des machines qui bougent.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW, Volkswagen) et les startups robotiques européennes pourraient bénéficier de la plateforme humanoïde ouverte pour réduire leurs coûts d'entrée et accélérer leurs développements en robotique industrielle et véhicules autonomes.

RobotiqueOpinion
1 source
Les ambitions de la Chine en matière d'implants cérébraux
42MIT Technology Review 

Les ambitions de la Chine en matière d'implants cérébraux

En octobre dernier, dans la cour de sa maison du Henan, une province du centre de la Chine, Dong Hui a saisi un stylo pour la première fois depuis six ans. Paralysé du cou aux pieds à la suite d'un accident de voiture, il a tracé lentement son nom, les mots « merci » et la date du jour. Ce geste apparemment anodin a été rendu possible par un implant cérébral appelé NEO. En mars 2026, ce dispositif est devenu la première interface cerveau-ordinateur invasive au monde à obtenir une autorisation officielle pour un usage au-delà des essais cliniques, franchissant ainsi un seuil réglementaire qu'aucun concurrent n'avait encore atteint. Cette approbation représente un tournant majeur pour les millions de patients atteints de paralysies graves, pour qui les interfaces cerveau-ordinateur constituent l'une des rares pistes capables de restaurer une forme d'autonomie. Mais au-delà du cas individuel de Dong Hui, l'enjeu est aussi stratégique : la Chine se positionne désormais comme un acteur central d'une technologie jugée cruciale pour les décennies à venir. Là où d'autres pays progressent encore dans le cadre de protocoles expérimentaux stricts, Pékin dispose maintenant d'un dispositif homologué, ce qui devrait permettre d'accélérer les déploiements cliniques, d'attirer des financements et de constituer des bases de données patients à une échelle inédite. Pour l'industrie, cela signifie que la Chine ne se contente plus de rattraper son retard sur les États-Unis ou l'Europe : elle prend de l'avance sur le terrain réglementaire. Le domaine des interfaces cerveau-ordinateur est dominé depuis plusieurs années par Neuralink, la société d'Elon Musk, dont le premier implant humain a été posé début 2024. Mais Neuralink reste dans un cadre expérimental supervisé par la FDA américaine, sans approbation commerciale à ce stade. La Chine, elle, a construit en parallèle un écosystème complet : universités, startups spécialisées et soutien étatique massif dans le cadre de ses plans d'innovation technologique. NEO est le produit de cet effort de longue haleine. Avec cette autorisation, Pékin envoie un signal clair aux investisseurs et aux chercheurs mondiaux. Les prochaines étapes pourraient inclure une expansion à d'autres indications médicales, des déploiements dans plusieurs hôpitaux chinois, et potentiellement une pression accrue sur les régulateurs occidentaux pour qu'ils accélèrent leurs propres procédures d'approbation face à cette concurrence directe.

UELes régulateurs européens pourraient subir une pression accrue pour accélérer leurs procédures d'homologation des interfaces cerveau-ordinateur, face à l'avance réglementaire que la Chine vient de prendre sur ce marché stratégique.

💬 Neuralink fait la une depuis 2024, mais c'est la Chine qui vient de décrocher la première vraie homologation commerciale d'un implant cérébral. Dong Hui qui retrace son nom, c'est évidemment poignant, mais le vrai coup se joue sur le terrain réglementaire : avec NEO approuvé hors essais cliniques, Pékin va accumuler des données patients à une échelle qu'aucun concurrent occidental ne peut encore se permettre. C'est le genre d'avance qui prend dix ans à rattraper.

RobotiqueOpinion
1 source
La Chine approuve la première puce cérébrale invasive au monde : quelle est la suite ?
43MIT Technology Review 

La Chine approuve la première puce cérébrale invasive au monde : quelle est la suite ?

Dong Hui, 39 ans, paralysé du cou jusqu'aux pieds depuis un accident de voiture il y a six ans, a réussi en octobre 2025 à tenir un stylo et à écrire son nom pour la première fois depuis l'accident. Cette prouesse est le résultat d'onze mois de rééducation rendus possibles par un implant cérébral appelé NEO, un dispositif de la taille d'une pièce de monnaie développé par la startup shanghaïenne Neuracle Technology en partenariat avec l'université Tsinghua de Pékin. En novembre 2024, Dong est devenu l'un des premiers Chinois à recevoir une interface cerveau-ordinateur (BCI) invasive via une opération chirurgicale. Ce mars 2026, le régulateur chinois des produits médicaux a accordé à NEO la première homologation mondiale pour un BCI invasif hors essais cliniques, le rendant accessible aux patients entre 18 et 60 ans souffrant de paralysie des quatre membres due à une lésion médullaire, sous réserve d'une fonction résiduelle dans les bras. Depuis octobre 2023, Neuracle a conduit 36 essais cliniques avec NEO, dont 32 concentrés sur quelques mois en 2025. Cette approbation marque un tournant historique pour la médecine et pour l'industrie des neurotechnologies. NEO permet à des patients lourdement handicapés de retrouver une motricité partielle grâce à un gant robotique souple piloté par leurs signaux cérébraux, via des séances d'entraînement quotidiennes de deux heures et demie. Le dispositif n'implante pas d'électrodes directement dans le cortex, mais place huit capteurs sur la dure-mère, la membrane protectrice du cerveau. Cette conception moins invasive réduit les risques d'hémorragie, de cicatrices gliales et de dégradation du signal à long terme, selon Avinash Singh, chercheur en BCI à l'université de technologie de Sydney. Pour les patients comme Dong, dont l'objectif est de s'habiller et de manger seul sans solliciter ses parents vieillissants, l'enjeu est concret et immédiat. NEO devance ainsi des concurrents de poids, dont le N1 de Neuralink, la société californienne d'Elon Musk, dont la puce perfore directement le cortex et reste cantonnée aux essais cliniques. L'approbation express en Chine s'explique en partie par un cadre réglementaire volontairement accéléré pour soutenir l'industrie nationale des BCI, un secteur que Pékin considère comme stratégique. La course mondiale aux interfaces cerveau-machine est désormais ouverte sur plusieurs fronts: performances cliniques, sécurité à long terme, et vitesse d'accès au marché. Avec NEO commercialisé en premier, la Chine prend une longueur d'avance significative, tandis que les acteurs américains et européens devront répondre à la question de savoir si une conception plus invasive peut justifier ses risques supplémentaires par de meilleures performances fonctionnelles pour les patients.

UEL'approbation commerciale de NEO devance les régulateurs européens et pourrait contraindre l'EMA et les États membres à accélérer leurs cadres d'évaluation des dispositifs neuro-implantables invasifs.

💬 Neuralink fait beaucoup de bruit, mais c'est une startup shanghaïenne qui vient de décrocher la première homologation commerciale mondiale pour un BCI invasif. Bon, sur le papier c'est ciblé, des paraplégiques entre 18 et 60 ans avec fonction résiduelle, mais un patient qui réécrit son prénom six ans après son accident, ça vaut tous les communiqués de presse. Les régulateurs européens vont avoir du mal à ignorer ça.

RobotiquePaper
1 source
OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun
44The Decoder 

OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun

OpenAI relance une division robotique, cinq ans après avoir fermé son équipe initiale dédiée à ce domaine. Selon les informations publiées par The Decoder, cette nouvelle équipe est directement issue du programme de recherche en simulation du monde développé en interne. Sam Altman, PDG d'OpenAI, a exprimé une ambition à long terme claire : offrir à chaque individu un robot personnel capable de répondre à n'importe quel besoin. Dans l'immédiat, les premiers déploiements cibleront la construction d'infrastructures. Ce retour dans la robotique signale une accélération majeure dans la course à l'automatisation physique. Après avoir dominé le domaine logiciel avec ChatGPT et les modèles GPT, OpenAI entend désormais ancrer ses modèles d'intelligence artificielle dans le monde réel. L'enjeu est considérable : des robots capables d'opérer dans des environnements complexes pourraient transformer des secteurs entiers comme la construction, la logistique ou les services à la personne, et redéfinir profondément le marché du travail. OpenAI avait abandonné la robotique en 2021, citant des contraintes de ressources et un recentrage sur les modèles de langage. Depuis, le paysage a radicalement changé : Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus ont intensément développé des robots humanoïdes, attisant l'intérêt des investisseurs. Le fait qu'OpenAI s'appuie sur ses travaux de simulation du monde suggère une approche différente, centrée sur la généralisation des comportements plutôt que sur la programmation spécialisée, une stratégie potentiellement décisive dans cette compétition naissante.

UEL'entrée d'OpenAI dans la robotique physique pourrait accélérer l'automatisation dans des secteurs clés en Europe comme la construction et la logistique, avec des répercussions potentielles sur l'emploi, mais sans impact direct immédiat sur la France ou une réglementation européenne.

RobotiqueOpinion
1 source
Nvidia sur la touche ? BYD sort sa puce autonome maison et veut reprendre le volant
45Le Big Data 

Nvidia sur la touche ? BYD sort sa puce autonome maison et veut reprendre le volant

Le 28 mai 2026 à Shenzhen, BYD a présenté la Xuanji A3, une puce de conduite autonome conçue entièrement en interne et gravée en 4 nm, une première revendiquée pour l'automobile chinoise. Le composant est annoncé en production de masse et atteint 700 TOPS par unité, soit plus de 2 100 TOPS lorsque trois puces sont combinées dans un même véhicule, avec une bande passante de 273 Go/s, un processeur 16 cœurs cadencé à 420 000 DMIPS et une certification de sécurité ASIL-D. BYD affirme une consommation énergétique inférieure de 20 % aux solutions concurrentes équivalentes. Le groupe revendique plus de 7 000 ingénieurs dédiés aux semi-conducteurs et plus de 100 milliards de yuans investis dans la filière. La puce est conçue pour gérer des niveaux d'autonomie 3 et 4, et sera intégrée au système d'aide à la conduite maison de BYD, baptisé God's Eye. L'enjeu industriel dépasse largement la fiche technique. En développant son propre SoC, BYD cherche à s'affranchir de sa dépendance à Nvidia, dont les puces DRIVE AGX Thor dépassent les 1 000 TOPS INT8 mais restent soumises aux aléas géopolitiques et aux restrictions américaines sur les exportations vers la Chine. Maîtriser la conception de bout en bout permet au constructeur de réduire ses coûts, sécuriser ses approvisionnements et déployer des fonctions avancées sur des modèles d'entrée de gamme : BYD annonce ainsi une option God's Eye B à 12 000 yuans sur certains véhicules accessibles, ainsi qu'une prise en charge des sinistres liés à la navigation urbaine assistée en Chine. Si la promesse tient, cela représenterait un avantage concurrentiel décisif face à Tesla, Toyota ou Volkswagen sur le marché intérieur. Plusieurs zones d'ombre tempèrent toutefois l'annonce. BYD ne précise pas quelle fonderie fabrique effectivement ce 4 nm, un silence lourd de sens dans un secteur où l'accès aux nœuds avancés reste une contrainte géopolitique majeure, notamment depuis les restrictions imposées à SMIC. Les TOPS affichés constituent un repère utile, mais les performances réelles en conduite de nuit, sous la pluie ou dans des intersections complexes ne se mesurent pas en salle de presse. L'Europe n'a reçu aucun calendrier de déploiement, et la conduite autonome y reste étroitement encadrée par des réglementations qui avancent plus lentement que les puces. BYD a posé une pièce forte sur l'échiquier des semi-conducteurs automobiles, mais la validation commerciale et réglementaire de la Xuanji A3 s'écrira sur des milliers de kilomètres, pas sur une scène de keynote.

UEBYD, déjà présent sur le marché européen des véhicules électriques face à Volkswagen et Stellantis, pourrait intégrer cette puce dans ses modèles vendus en Europe, accentuant la pression technologique sur les constructeurs européens, mais aucun calendrier de déploiement n'est annoncé et les réglementations européennes sur la conduite autonome freinent toute adoption à court terme.

RobotiqueOpinion
1 source
IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3
46NVIDIA Developer Blog 

IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3

NVIDIA a annoncé Cosmos 3, un modèle fondamental de frontière dédié à l'IA physique, conçu pour doter les robots, les véhicules autonomes et les espaces intelligents d'une capacité de compréhension du monde réel. L'architecture de Cosmos 3 repose sur trois composantes intégrées : des modèles de raisonnement physique, des modèles de monde et des modèles d'action, permettant à un système de percevoir son environnement, d'anticiper les événements à venir et de produire des séquences d'actions adaptées à une incarnation physique et à une tâche spécifiques. Ce type d'approche unifiant raisonnement, simulation et action au sein d'un seul modèle fondamental représente un changement de paradigme pour les intégrateurs robotiques. Jusqu'ici, ces trois briques étaient souvent développées séparément, ce qui générait des lacunes au niveau du transfert sim-to-real. Un modèle entraîné à raisonner sur la physique du monde avant de planifier l'action offre théoriquement une meilleure généralisation sur des tâches non vues en production, bien que les benchmarks industriels indépendants restent à confirmer. NVIDIA avait introduit la plateforme Cosmos en janvier 2025 au CES, positionnant alors ses modèles génératifs de monde comme infrastructure pour les fabricants de robots et les constructeurs automobiles. Cosmos 3 s'inscrit dans cette trajectoire d'itération rapide, face à une concurrence directe : Google DeepMind avec les modèles Gemini Robotics et RT-2, Physical Intelligence (pi) avec Pi-0, et Figure AI avec ses propres VLA. L'enjeu pour NVIDIA est de s'imposer comme couche d'infrastructure fondamentale de l'IA physique, au-delà du seul matériel GPU.

UENVIDIA Cosmos 3 pourrait devenir une couche d'infrastructure fondamentale adoptée par les intégrateurs robotiques européens (ABB, KUKA, Stäubli), mais l'impact réel dépendra des benchmarks industriels indépendants et des conditions d'accès à la plateforme.

💬 Le vrai pari de NVIDIA avec Cosmos 3, c'est de s'imposer comme couche d'infrastructure logicielle de l'IA physique, au-delà du GPU. Raisonner sur la physique avant de planifier l'action, et unifier les trois briques dans un seul fondamental, c'est exactement ce qui manquait pour réduire les galères de transfert sim-to-real qui plombent les déploiements robotiques depuis des années. Sans benchmarks industriels indépendants, ça reste du déclaratif, mais la direction est la bonne.

RobotiqueOpinion
1 source
Wall-OSS-0.5 : rapport technique
47arXiv cs.RO 

Wall-OSS-0.5 : rapport technique

Une équipe de chercheurs a publié sur arXiv (2605.30877) le rapport technique de Wall-OSS-0.5, un modèle Vision-Language-Action (VLA) open source de 4 milliards de paramètres, construit sur un backbone VLM de 3B paramètres auquel sont greffés des composants de génération d'actions. Le modèle a été pré-entraîné sur plus de 20 morphologies robotiques différentes, en ingérant plus d'un million de trajectoires robot par époque, couplées à un corpus multimodal ancré. La recette d'entraînement repose sur un co-entraînement à gradient bridgé combinant trois objectifs complémentaires : prédiction d'actions discrètes pour faire circuler des gradients VLM forts dans le backbone, prédiction multimodale pour préserver la compréhension vision-langage, et flow matching continu comme interface d'action au moment du déploiement. Avant tout fine-tuning spécifique, le checkpoint pré-entraîné atteint des comportements zero-shot non triviaux sur un banc de 17 tâches réelles, y compris une tâche de manipulation d'objets déformables hors distribution. Après fine-tuning, il affiche 60,5% de progression moyenne sur 15 tâches réelles et surpasse Pi-0.5 de 17,5 points de pourcentage. Ce résultat repose la question fondamentale du pré-entraînement VLA : jusqu'ici, la quasi-totalité des preuves de performance étaient mesurées après fine-tuning, rendant impossible la distinction entre "le pré-entraînement forme une politique utilisable" et "le pré-entraînement fournit juste une meilleure initialisation". Wall-OSS-0.5 démontre que le checkpoint brut produit des comportements exécutables sur matériel physique, y compris sur des tâches jamais vues. Le fait que l'entraînement sur données d'action ne dégrade pas les capacités vision-langage générales est également significatif pour les intégrateurs : cela suggère qu'un seul modèle fondation peut couvrir perception, raisonnement et contrôle sans compromis majeur, ce qui simplifie l'architecture système. Wall-OSS-0.5 s'inscrit dans la dynamique des VLA fondationnels initiée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa publication open source le distingue dans un secteur dominé par des checkpoints propriétaires, et permet des comparaisons reproductibles. La performance zero-shot sur manipulation déformable est notable car ce type de tâche est réputé difficile à généraliser : c'est précisément le type de gap sim-to-real que les approches purement simulées peinent à combler. Les prochaines étapes probables incluent un scaling du corpus et des évaluations sur des plateformes humanoïdes commerciales, où la generalisation cross-embodiment du modèle pourra être testée en conditions industrielles.

UELe caractère open source de Wall-OSS-0.5 permet aux équipes de R&D françaises et européennes d'accéder librement à un modèle VLA fondationnel compétitif, réduisant la dépendance aux checkpoints propriétaires américains et asiatiques.

💬 Le vrai truc ici, c'est pas les 60,5% sur le benchmark. C'est que le checkpoint pré-entraîné produit des comportements exécutables sur du vrai matériel, sans fine-tuning, y compris sur des tâches jamais vues. Et open source par-dessus le marché, dans un secteur où tout le monde garde jalousement ses poids pour soi.

RobotiqueOpinion
1 source
TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques
48arXiv cs.RO 

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Des chercheurs de l'UCLA Mobility Lab ont publié fin février 2026 TIC-VLA (Think-in-Control VLA), un framework de contrôle robotique qui adresse explicitement le décalage temporel entre raisonnement sémantique et action en temps réel. Le modèle introduit une interface "delayed semantic-control" : au lieu de supposer que la sortie du module vision-langage est synchrone avec l'action motrice, TIC-VLA conditionne la génération d'action sur des états sémantiques retardés et sur des métadonnées de latence explicites, en plus des observations courantes. Le pipeline d'entraînement, dit "latency-consistent", injecte des délais de raisonnement réels pendant l'apprentissage par imitation et le reinforcement learning en ligne, alignant ainsi les conditions d'entraînement sur celles du déploiement. Pour l'évaluation, l'équipe présente également DynaNav, une suite de simulation physiquement précise et photoréaliste dédiée à la navigation guidée par langage naturel dans des environnements avec présence humaine. Les expériences couvrent à la fois la simulation et un robot réel, avec des latences de raisonnement pouvant dépasser plusieurs secondes. L'enjeu sous-jacent est structural dans le champ des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures dérivées de RT-2 supposent implicitement que l'inférence sémantique et le contrôle moteur sont cadencés de manière cohérente. En pratique, les LLM embarqués dans ces architectures introduisent des délais incompressibles de 0,5 à plusieurs secondes, incompatibles avec une boucle de contrôle à 10-20 Hz dans un environnement dynamique. TIC-VLA propose une solution au niveau de l'architecture plutôt qu'au niveau matériel, ce qui est potentiellement plus portable. Les résultats annoncés indiquent une surperformance systématique par rapport aux VLA antérieurs tout en maintenant un contrôle robuste sous latence. Il faut toutefois noter que les benchmarks proviennent en grande partie de DynaNav, un environnement simulé développé par les auteurs eux-mêmes, ce qui appelle une validation indépendante. La problématique de l'asynchronisme VLA n'est pas nouvelle : des travaux comme GROOT ou des approches à architecture duale (slow planner / fast controller) cherchent à séparer les horizons temporels. TIC-VLA se distingue en modélisant la latence comme un paramètre de condition plutôt qu'en la masquant par une architecture hiérarchique. Le projet est porté par le groupe UCLA Mobility Lab, connu pour ses travaux sur la navigation autonome urbaine. La page projet est accessible, mais aucune annonce de déploiement industriel ou de partenariat commercial n'est mentionnée pour l'instant. Les prochaines étapes naturelles seraient une évaluation sur des plateformes standardisées comme le benchmark Open-X Embodiment, et une confrontation avec des architectures concurrentes sur des tâches de manipulation en environnement mixte homme-robot.

RobotiqueOpinion
1 source
Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation
49arXiv cs.RO 

Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation

Publiés le 30 mai 2026 sur arXiv (2506.30569), des chercheurs présentent Any-ttach, un système de manipulation robotique qui renonce à la complexité des mains multi-doigts au profit d'un mécanisme de swap rapide d'effecteurs terminaux. Le système repose sur trois composants : un mécanisme d'échange automatique bas coût pour une interface robotique à ouverture/fermeture, un dispositif portatif pour collecter des démonstrations humaines, et un planificateur de tâches qui compose des compétences d'utilisation d'outils apprises, paramétriques et planifiées. L'interface unifiée supporte une gamme hétérogène d'effecteurs, outils du quotidien, ciseaux articulés, doigts Fin Ray et une main anthropomorphe bas coût, tous connectés via le même connecteur. En validation, le système exécute deux tâches longue durée : préparer un sandwich et couper un concombre, chacune décomposée en six sous-tâches avec changements d'effecteurs successifs. L'intérêt industriel réside dans le changement de paradigme proposé : là où la roadmap dominante mise sur des mains à 20+ degrés de liberté pour atteindre la dextérité humaine, Any-ttach montre qu'une capacité d'échange rapide d'outils peut produire une polyvalence fonctionnelle comparable à un coût matériel et logiciel nettement inférieur. Les auteurs rapportent une meilleure fiabilité de swap, une collecte de démonstrations plus efficace et une moindre variabilité de pose d'outil, trois métriques directement pertinentes pour un intégrateur souhaitant déployer sans ingénierie robotique lourde. L'approche reste toutefois un preprint sans validation en environnement industriel réel, et les tâches démontrées (cuisine domestique) sont loin des contraintes d'une ligne de production. L'article s'inscrit dans un débat plus large sur la morphologie optimale du robot manipulateur. Des acteurs comme Sanctuary AI, Apptronik ou encore Pollen Robotics (FR) investissent massivement dans des mains dextres haute fidélité, tandis que Boston Dynamics et ses pairs industriels restent attachés aux pinces simples. Any-ttach occupe un espace intermédiaire, proche dans l'esprit des systèmes à changement d'outil rapide des robots industriels (ISO 9283), mais étendu à la manipulation non structurée. Les prochaines étapes selon les auteurs sont disponibles sur le site dédié any-ttach.github.io ; aucun partenaire industriel ni timeline de commercialisation n'est mentionné.

UEL'approche Any-ttach constitue un défi indirect pour Pollen Robotics (FR), dont la roadmap repose sur des mains dextres haute fidélité : si le paradigme swap-d'effecteurs s'impose, cela pourrait remettre en question les choix d'investissement des acteurs européens engagés dans la dextérité multi-doigts.

RobotiquePaper
1 source
DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables
50arXiv cs.RO 

DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables

Des chercheurs ont publié DeMaVLA, un modèle fondation de type Vision-Langage-Action (VLA) conçu pour la manipulation d'objets déformables, en particulier le pliage de vêtements. Annoncé en preprint arXiv (2605.31286, mai 2026), DeMaVLA couple un backbone VLM à un module appelé "action expert" qui génère des trajectoires continues par flow matching. Pour réduire les coûts d'entraînement et d'inférence, cet action expert est construit en élaguant une couche transformer sur deux du backbone, tout en préservant l'alignement entre les deux modules. Le modèle est d'abord pré-entraîné sur environ 5 000 heures de démonstrations bimanuals en conditions réelles, puis affiné via un pipeline DAgger (Data Aggregation) avec supervision humaine : des trajectoires correctives sont collectées à partir des échecs du robot sur plusieurs tâches de pliage, puis réinjectées en entraînement. Les résultats sont compétitifs sur le benchmark RoboTwin et solides sur un benchmark maison de pliage domestique. La plupart des systèmes VLA actuels entraînent des politiques séparées par catégorie d'objet (un réseau pour les t-shirts, un autre pour les pantalons), ce qui limite la généralisation et alourdit la maintenance. DeMaVLA propose une politique unifiée capable de traiter des vêtements de géométries, matières et états initiaux variés sans réentraînement par catégorie, ce qui est directement pertinent pour les intégrateurs en robotique domestique et logistique. Le recours au DAgger avec boucle humaine est aussi un signal industriel : les corrections issues des échecs du robot, structurées et réinjectées, améliorent concrètement la robustesse au-delà des seules démonstrations expertes. Cela valide l'hypothèse que les données correctives à grande échelle sont un levier clé pour réduire le sim-to-real gap sur des tâches à haute variabilité. La manipulation d'objets déformables reste l'un des problèmes ouverts les plus difficiles en robotique physique : contrairement aux objets rigides, un vêtement n'a pas d'état canonique stable, ce qui complique radicalement la planification et la perception. Plusieurs équipes travaillent sur ce terrain : Physical Intelligence avec Pi-0 (manipulation généraliste bimanuels), NVIDIA avec GR00T N2, et divers laboratoires académiques (Columbia, CMU) sur la manipulation textile. DeMaVLA se positionne sur le créneau des fondations multi-tâches déformables, en combinant pré-entraînement à grande échelle et fine-tuning correctif. Ce travail reste un preprint non encore évalué par les pairs, et les benchmarks maisons appellent à une validation indépendante. Les suites naturelles sont l'extension à d'autres objets déformables (câbles, sacs souples) et l'évaluation sur des plateformes robotiques commerciales en environnement non contrôlé.

RobotiqueOpinion
1 source