Aller au contenu principal

Dossier Robots humanoïdes — page 2

469 articles · page 2 sur 10

L'industrie des robots humanoïdes : Unitree, Fauna Robotics, Tesla Optimus, Chery, Sony, défis techniques et premiers déploiements en entreprise.

Exécution en temps réel avec des politiques autorégressives
51arXiv cs.RO RobotiqueOpinion

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
52arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

RobotiqueOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
53arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

RobotiquePaper
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
54arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

RobotiqueOpinion
1 source
NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe
55FrenchWeb 

NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe

Neura Robotics, startup allemande spécialisée dans la robotique humanoïde, vient d'annoncer une levée de fonds de 1,4 milliard de dollars, soit environ 1,2 milliard d'euros, portant sa valorisation à près de 6 milliards d'euros. L'opération regroupe un consortium d'investisseurs aussi large qu'inédit : Amazon, NVIDIA et Qualcomm côté tech, Bosch et Schaeffler côté industrie allemande, la Banque européenne d'investissement comme acteur public, auxquels s'ajoutent plusieurs fonds financiers internationaux. Il s'agit du plus grand tour de financement jamais réalisé pour une entreprise européenne de robotique. Ce signal dépasse la simple performance financière. La présence simultanée de géants technologiques américains, de champions industriels allemands et d'une institution publique européenne traduit une convergence rare : le robot humanoïde n'est plus un projet de laboratoire, il devient une infrastructure industrielle crédible. Pour Amazon, qui déploie déjà des robots dans ses entrepôts, l'enjeu est d'intégrer des machines capables de remplacer la main humaine dans les tâches non automatisées. Pour NVIDIA et Qualcomm, c'est un débouché majeur pour leurs puces d'IA embarquée. Fondée par David Reger, Neura Robotics s'inscrit dans une course mondiale qui oppose désormais les Américains Figure AI, Agility Robotics et Boston Dynamics aux acteurs chinois en pleine montée en puissance. L'Europe, longtemps absente de ce segment, tente d'y placer un champion. Ce financement donne à Neura les moyens d'accélérer la production et de conquérir des clients industriels avant que la fenêtre de leadership ne se referme.

UEUne startup allemande lève 1,2 milliard d'euros avec le soutien de la Banque européenne d'investissement et des industriels allemands Bosch et Schaeffler, positionnant l'Europe comme acteur crédible dans la course mondiale aux robots humanoïdes industriels.

💬 La liste des investisseurs dit tout : Amazon, NVIDIA, Bosch et la BEI dans le même tour, ça ne ressemble plus à un pari de VC, ça ressemble à une infrastructure qui se construit. L'Europe avait besoin d'un champion dans cette course aux humanoïdes, Neura pourrait être lui, bon, sur le papier du moins. Reste à voir si 1,2 milliard suffit à tenir le rythme face aux acteurs américains et chinois qui n'ont pas attendu.

RobotiqueOpinion
1 source
Tye Brady (Amazon) : les robots du futur « se fondront dans le décor »
56La Tribune 

Tye Brady (Amazon) : les robots du futur « se fondront dans le décor »

Tye Brady, directeur technologique d'Amazon Robotics, a dévoilé les grandes ambitions d'Amazon en matière d'automatisation lors d'une récente intervention publique. L'entreprise opère déjà une flotte de plus d'un million de robots dans ses centres logistiques à travers le monde, et a annoncé un investissement de 10 milliards d'euros pour moderniser ses entrepôts européens dans les années à venir. L'objectif affiché : élargir considérablement le champ d'action de ces machines, notamment en les dotant d'une capacité de compréhension du langage naturel. Cette évolution représente un saut qualitatif majeur pour l'industrie logistique. Des robots capables de comprendre des instructions en langage courant, et non plus seulement des commandes codées, pourraient opérer de manière bien plus autonome et flexible aux côtés des travailleurs humains. Pour Amazon, cela signifie une réduction des coûts opérationnels à grande échelle, mais aussi une pression accrue sur l'emploi dans des secteurs déjà fragilisés par l'automatisation. Brady résume la vision par une formule : les robots du futur « se fondront dans le décor », discrets et omniprésents à la fois. Amazon n'est pas seul sur ce terrain : des acteurs comme Boston Dynamics, Figure ou Agility Robotics développent des robots humanoïdes visant les mêmes environnements industriels. L'intégration du traitement du langage naturel dans la robotique, rendue possible par les avancées des grands modèles de langage, est devenue l'enjeu central de la prochaine génération de systèmes automatisés. L'investissement européen d'Amazon s'inscrit dans ce contexte de course technologique, avec des implications réglementaires et sociales que Bruxelles commencera sans doute à encadrer plus fermement.

UEAmazon investit 10 milliards d'euros dans la modernisation de ses entrepôts européens, avec des implications directes sur l'emploi dans la logistique en France et des pressions réglementaires croissantes pour Bruxelles.

💬 Un million de robots déjà en prod, et là ils annoncent qu'ils veulent qu'ils comprennent le langage naturel, comme si c'était juste le prochain patch. C'est la bascule qui rend le reste sérieux : des robots qui s'adaptent aux instructions humaines au lieu de forcer les humains à s'adapter aux robots. Les 10 milliards en Europe, c'est pas de la com, c'est la mise de départ d'une course où Bruxelles va très vite devoir choisir entre réguler et regarder.

RobotiqueOpinion
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
57arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

RechercheOpinion
1 source
Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration
58Le Big Data 

Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration

Lors d'une démonstration publique en Chine le 5 juin 2026, un robot humanoïde déguisé en clown, perruque colorée incluse, a donné un coup de pied circulaire dans le ventre d'un enfant positionné au premier rang du public. La scène, capturée en vidéo et relayée sur le réseau social X par le compte Culture Crave, a rapidement accumulé plusieurs millions de vues. Sur les images, on distingue nettement le robot effectuer une rotation, son pied venant heurter l'enfant qui recule sous l'impact. Les personnes présentes semblent immédiatement réagir. On ignore pour l'instant l'identité du fabricant du robot, le lieu exact de la démonstration, et si l'enfant a été blessé. Les circonstances précises, dysfonctionnement technique ou mouvement non anticipé de la chorégraphie programmée, restent également indéterminées. L'incident remet brutalement en lumière la question de la sécurité des robots humanoïdes déployés dans des espaces publics, au contact direct du grand public et d'enfants. Même conçus à des fins de divertissement, ces machines sont capables de produire des gestes rapides, puissants et difficiles à anticiper pour un spectateur non averti. Les fabricants investissent depuis des années dans des mécanismes de détection de proximité et de limitation de force pour réduire les risques de collision avec les humains, mais aucun dispositif n'est infaillible. Un mauvais calibrage, une erreur de programmation ou une mauvaise lecture de l'environnement suffisent à transformer une démonstration ludique en incident. La mise en scène, un robot grimé en clown censé amuser un public familial, rend l'image d'autant plus frappante et questionne le cadre réglementaire entourant ce type d'événements. La robotique humanoïde connaît depuis quelques années une accélération remarquable : les machines marchent, courent, sautent et dansent avec une fluidité croissante, réalisant des figures jugées hors de portée il y a encore peu. Des acteurs comme Boston Dynamics, Unitree ou Figure AI poussent les limites des capacités physiques de ces systèmes, tandis que la Chine a massivement investi dans ce secteur pour en faire un axe stratégique de son industrie technologique. Mais cette montée en puissance s'accompagne d'un déploiement accéléré dans des contextes grand public, salons, centres commerciaux, événements, avant que les standards de sécurité n'aient pleinement suivi. Cet épisode, aussi anecdotique qu'il puisse paraître, est susceptible d'alimenter les débats sur les normes de cohabitation entre robots et humains dans des espaces non contrôlés, un enjeu que régulateurs et industriels devront inévitablement trancher à mesure que ces machines se banalisent.

UEL'incident alimente indirectement le débat européen sur les normes de sécurité encadrant le déploiement de robots humanoïdes dans des espaces publics.

RobotiqueActu
1 source
Le guide du sceptique face aux robots humanoïdes qui font le buzz sur Internet
59Ars Technica AI 

Le guide du sceptique face aux robots humanoïdes qui font le buzz sur Internet

Les vidéos de robots humanoïdes se multiplient sur les réseaux sociaux, montrant des machines qui dansent, font de l'acrobatie ou accomplissent des tâches ménagères avec une aisance déconcertante. Ces démonstrations, soigneusement orchestrées par des startups et des géants technologiques, créent l'impression que les robots capables de tout faire sont sur le point d'envahir nos quotidiens. Jonathan Hurst, cofondateur d'Agility Robotics et chercheur en robotique à l'Université d'État de l'Oregon, tire la sonnette d'alarme sur ce phénomène viral. Le problème central est l'écart considérable qui subsiste entre ces performances en démonstration et la capacité réelle de ces machines à exécuter les mêmes tâches de manière fiable et répétée dans des environnements non contrôlés. Hurst pointe un mécanisme cognitif bien documenté : les humains ont naturellement tendance à anthropomorphiser tout objet à forme humanoïde. Voir un bras robotique danser paraît simplement impressionnant, mais voir un robot humanoïde effectuer le même mouvement pousse le cerveau à extrapoler, à tort, que cette machine possède l'ensemble des capacités d'un être humain dansant. "Les gens supposent automatiquement que le robot qui ressemble à une personne peut faire tout ce qu'une personne qui danse pourrait faire, ce qui n'est pas vrai", a-t-il déclaré. Cette confusion n'est pas totalement accidentelle. Selon Hurst, de nombreuses startups du secteur exploitent délibérément ce biais cognitif pour séduire les investisseurs et lever des fonds. L'industrie de la robotique humanoïde attire des milliards de dollars de capital-risque, portée par des acteurs comme Figure AI, 1X, Apptronik ou Boston Dynamics, chacun cherchant à convaincre que la percée commerciale est imminente. La réalité technique est plus nuancée : programmer un robot pour reproduire une chorégraphie dans un studio contrôlé est sans commune mesure avec lui faire gérer l'imprévisibilité d'un entrepôt ou d'une cuisine. Le grand public, et parfois les décideurs, peinent encore à faire cette distinction essentielle.

RobotiqueOpinion
1 source
Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix
60The Verge 

Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix

Amazon a présenté une nouvelle version de Proteus, son robot de manutention autonome déployé dans ses entrepôts, capable désormais de recevoir des instructions en langage naturel. Là où les opérateurs devaient auparavant passer par un logiciel spécialisé pour programmer les déplacements de l'engin, ils peuvent désormais lui communiquer des tâches verbalement, comme à un collègue. Le robot, au format bas et trapézoïdal conçu pour déplacer de lourds chariots à travers les allées logistiques, conserve le même châssis que le modèle original annoncé en 2022, la nouveauté est exclusivement logicielle, portée par une surcouche IA. L'enjeu est significatif pour les opérations à grande échelle : éliminer la friction de programmation réduit le temps de formation des opérateurs et permet une réaffectation dynamique des robots sans intervention IT. C'est aussi un signal clair sur la direction qu'Amazon prend dans la course à l'automatisation de ses 1 000+ centres de distribution aux États-Unis, où la pression syndicale et les coûts de main-d'oeuvre accélèrent les déploiements robotiques. Cela dit, l'annonce reste pour l'instant au stade de démonstration capacitaire : Amazon ne communique pas de chiffres de déploiement, de taux d'erreur ni de benchmarks de cycle time dans des conditions réelles. Proteus fait partie d'un portefeuille robotique Amazon qui inclut Sequoia (tri de petits colis), Sparrow (picking d'articles) et Cardinal (manutention de caisses). Sur le volet langage naturel appliqué aux robots industriels, Amazon rejoint une tendance portée par Boston Dynamics (Spot) et Intrinsic (filiale Alphabet), qui intègrent des interfaces LLM pour réduire la barrière à la programmation en atelier. Les prochaines étapes annoncées par Amazon restent vagues, sans timeline précise ni volume de déploiement confirmé.

UEAmazon opère des entrepôts en France et en Europe ; l'adoption à grande échelle d'interfaces LLM sur robots industriels pourrait accélérer la pression à l'automatisation dans la logistique EU et influencer les standards d'intégration des opérateurs locaux.

RobotiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
61arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

RobotiqueOpinion
1 source
SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée
62arXiv cs.RO 

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

SplitAdapter est une architecture présentée sur arXiv (identifiant 2606.03297) visant à améliorer le contrôle de robots humanoïdes en loco-manipulation, soit la combinaison simultanée de la marche bipède et de la manipulation d'objets physiques. Le système part d'une politique de manipulation de boîtes préentraînée qu'il fige, puis lui greffe deux encodeurs de contexte indépendants : l'un capture les propriétés de la charge et de l'objet saisi, l'autre modélise les dynamiques internes du robot. Ces représentations sont injectées via une modulation FiLM hiérarchique (Feature-wise Linear Modulation), combinée à des objectifs split world-model et une régularisation cross-adversariale par gradient reversal (GRL). Les expériences couvrent des objets de 2, 4 et 6 kg, à des hauteurs de prise et de dépôt de 0, 30 et 60 cm, testés en sim-to-sim puis en déploiement sur robot réel. SplitAdapter améliore le taux de succès en tâche complète face à la politique de base et aux baselines FiLM à encodeur unique, avec les gains les plus marqués sous forte charge (6 kg). L'enjeu central est le transfert sim-to-réel sous charge variable : lorsqu'un humanoïde soulève un objet lourd, ses dynamiques changent sensiblement, et les adaptateurs existants qui fusionnent tous les signaux dans une seule représentation latente tendent à perdre en robustesse précisément dans les conditions les plus critiques. La factorisation proposée, un encodeur par source de variation, maintient une séparation explicite entre les incertitudes liées à l'objet et celles liées au robot, ce qui se révèle plus stable sous conditions extrêmes. Pour un intégrateur ou un OEM industriel, cela suggère qu'une politique généraliste préentraînée peut être adaptée modulairement selon la charge sans réentraînement complet, une propriété utile pour des lignes de production où les objets manipulés varient fréquemment. La loco-manipulation sur humanoïdes concentre des investissements massifs : Figure AI déploie son Figure 03 chez BMW, Boston Dynamics pousse Atlas en partenariat avec Hyundai, et des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) misent sur des politiques généralisables de type VLA (Vision-Language-Action). SplitAdapter prend un pari différent, adapter une politique spécialisée existante plutôt que d'en entraîner une nouvelle de bout en bout, ce qui réduit les coûts de calcul mais soulève la question de la généralisabilité hors distribution. Le papier est une préimpression arXiv soumise début juin 2026, non encore évaluée par les pairs ; aucun déploiement industriel ni pilote commercial n'est annoncé à ce stade.

RobotiquePaper
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
63arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

RechercheOpinion
1 source
Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie
64Le Big Data 

Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie

Nvidia a présenté Cosmos 3 lors du GTC de Taipei le 1er juin 2026, en parallèle de son robot humanoïde Isaac GROOT. Il s'agit du premier omnimodèle entièrement open source dédié à l'IA physique, disponible en deux variantes dès le lancement : une version "Super" de 32 milliards de paramètres, optimisée pour la précision dans des tâches comme la robotique et la conduite autonome, et une version "Nano" de 8 milliards de paramètres, conçue pour des inférences rapides. Une troisième déclinaison "Edge", utilisable directement sur des appareils locaux sans connexion cloud, est annoncée prochainement. Le modèle a été entraîné sur un corpus colossal de 20 000 milliards de tokens incluant près d'un milliard d'images, 400 millions de vidéos réelles et générées, des données audio ambiantes, du texte, ainsi que des traces d'actions captées sur des humains et des robots. Parmi les premiers partenaires industriels figurent Agile Robots, Black Forest Labs et Runway. Ce qui distingue Cosmos 3 des générateurs vidéo ou des modèles multimodaux classiques, c'est sa capacité native à comprendre et produire des actions, et pas seulement des représentations visuelles. Le système peut générer des données concrètes comme les angles d'articulations d'un robot, des trajectoires ou des positions de pinces mécaniques, directement exploitables pour entraîner des machines à interagir avec le monde physique. Ming-Yu Liu, vice-président du Cosmos Lab chez Nvidia, a insisté sur ce point : modéliser les mouvements des machines, et non seulement l'apparence des environnements, est la clé des systèmes autonomes réellement opérationnels. Autre avantage majeur : Cosmos peut simuler des scénarios rares ou dangereux, comme des collisions robotiques ou des incidents routiers atypiques, qui sont coûteux et risqués à reproduire en conditions réelles. Nvidia affirme que des tâches d'entraînement qui demandaient auparavant plusieurs mois pourraient désormais être réalisées en quelques jours. La publication de Cosmos 3 en open source s'inscrit dans la stratégie de Nvidia de construire un écosystème ouvert autour de l'IA physique, dans la lignée de sa famille de modèles Nemotron. En rendant le modèle librement adaptable, l'entreprise cherche à accélérer l'adoption industrielle tout en captant les retours du terrain pour orienter ses futures versions. Ce lancement intervient dans un contexte de compétition intense autour des fondations logicielles de la robotique et des véhicules autonomes, secteurs dans lesquels Google, Tesla et plusieurs startups chinoises investissent massivement. En positionnant Cosmos comme l'infrastructure commune de l'IA physique, Nvidia tente de reproduire dans le monde des machines intelligentes le rôle dominant que CUDA joue depuis vingt ans dans le calcul GPU.

UELes laboratoires et entreprises européens de robotique et de conduite autonome peuvent désormais exploiter un modèle de fondation open source de référence pour l'IA physique, réduisant les coûts d'entraînement et la dépendance au cloud.

💬 C'est la comparaison avec CUDA qui dit tout : Nvidia ne veut pas vendre des GPU pour la robotique, il veut être l'infrastructure qu'on ne peut plus éviter. Cosmos 3 en open source, c'est le même coup que PyTorch, tu ouvres pour capter l'écosystème avant de le monétiser. Reste à voir si les labos européens ont vraiment les ressources pour en tirer parti.

RobotiqueActu
1 source
Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF
65arXiv cs.RO 

Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF

Des chercheurs ont publié le 1er juin 2026 sur arXiv une étude portant sur le fine-tuning de modèles Vision-Language-Action (VLA) pour manipulateurs mobiles à 11 degrés de liberté (DoF), en l'occurrence le Toyota HSR. Ils ont comparé SmolVLA (450 millions de paramètres, entraînement sur la tête d'action uniquement) et π0.5 de Physical Intelligence (3,3 milliards de paramètres), évalués sur 60 essais réels (20 par variante). Le résultat central : le checkpoint affichant la meilleure erreur quadratique moyenne (MSE) agrégée n'est pas celui qui performe le mieux sur le robot physique. π0.5 à 80 000 étapes obtient un score de 4,0/4, devançant la variante expert-only à 3 000 étapes (3,75/4) et HSR-SmolVLA (3,5/4), avec une significativité statistique confirmée (Mann-Whitney p ≤ 0,010), malgré une MSE totale plus élevée pour le modèle gagnant. L'enjeu est méthodologique autant que pratique. Sur un robot hétérogène comme le HSR, les articulations faciles à prédire (tête, base) tirent la MSE agrégée vers le bas et masquent les joints critiques (bras) qui continuent d'échouer. Dans la variante expert-only de π0.5, geler le backbone et n'entraîner que la tête d'action fait chuter la MSE totale sous la baseline, mais dégrade précisément la précision du bras. L'analyse par groupe (bras, pince, tête, base roulante) révèle que c'est l'erreur du groupe bras hors ligne, et non la MSE totale ni l'erreur de la base, qui corrèle le plus fidèlement avec la performance réelle. Ce constat remet en question une pratique courante dans le déploiement de VLA sur robots multi-segments. Le Toyota HSR est une plateforme de référence en manipulation domestique et en recherche académique. Les modèles VLA s'imposent comme paradigme dominant depuis les travaux RT-2 de Google DeepMind (2023), suivis de π0 et π0.5 de Physical Intelligence (San Francisco), SmolVLA de HuggingFace (Paris), ou encore OpenVLA de Stanford. Le problème de la sélection de checkpoint par MSE agrégée était jusqu'ici peu documenté pour les espaces d'action hétérogènes. Le code de cette étude est publié en open source sur GitHub, ce qui permet une réplication directe. Prochaine étape logique : valider cette approche per-group sur d'autres plateformes humanoïdes à espace d'action encore plus fragmenté.

UESmolVLA de HuggingFace (Paris) est l'un des deux modèles centralement évalués, et les résultats méthodologiques (sélection de checkpoint par groupe d'articulations) guident directement les équipes européennes déployant des VLA sur manipulateurs mobiles hétérogènes.

💬 Évaluer un checkpoint VLA par la MSE totale sur un robot à 11 DOF, c'est se raconter des histoires. Les articulations simples, tête et base roulante, tirent le score agrégé vers le bas et cachent que le bras, lui, continue de foirer : le modèle gagnant sur la métrique standard n'est pas celui qui tient en conditions réelles. Ce papier le prouve proprement avec 60 essais physiques, et avec SmolVLA de HuggingFace dans le lot, c'est pas juste un résultat académique.

RechercheOpinion
1 source
Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée
66arXiv cs.RO 

Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée

Une équipe de chercheurs a publié début juin 2026 sur arXiv (réf. 2606.01015) une revue de la littérature consacrée à l'intégration conjointe de l'intelligence artificielle, de l'Internet des objets (IoT) et de la robotique, trois domaines qui progressaient jusqu'ici principalement deux à deux. Les auteurs recensent les travaux existants autour de combinaisons établies, l'AIoT (IA et IoT) et l'Internet of Robotic Things (IoRT, couplant IoT et robotique), et constatent l'absence persistante de cadres de conception unifiés orchestrant les trois disciplines simultanément. Leur principale contribution est une architecture modulaire où des petits modèles de langage (SLM, Small Language Models) assurent l'inférence locale en bordure de réseau (edge), tandis que des grands modèles de langage (LLM) hébergés dans le cloud prennent en charge le raisonnement de haut niveau et la prise de décision autonome. Pour les intégrateurs industriels et les responsables techniques B2B, l'architecture hybride SLM-LLM proposée répond à deux contraintes opérationnelles majeures : réduire la latence en traitant localement les données capteurs, et limiter la dépendance réseau dans des environnements de production. La revue identifie des verrous encore ouverts, notamment l'interopérabilité entre protocoles hétérogènes et la boucle de contrôle par retour d'information dans des systèmes multi-agents distribués. Il convient de souligner que ces résultats restent à ce stade conceptuels : le papier propose un cadre et une taxonomie, pas un système validé en déploiement réel, et l'absence de benchmarks reproductibles est explicitement signalée comme une limite. Ce travail s'inscrit dans un courant académique et industriel que NVIDIA a popularisé sous le terme de Physical AI, désignant des systèmes capables d'agir dans le monde physique via des robots ou des actionneurs connectés. La robotique connectée que dessine ce survey fait écho aux développements de plateformes cloud-robot portés par des acteurs comme Boston Dynamics, ou en Europe par des intégrateurs spécialisés comme Exotec dans les AMR et Enchanted Tools dans la robotique collaborative. Les auteurs identifient eux-mêmes comme prochaine étape la validation expérimentale de leur cadre sur des cas d'usage réels, condition nécessaire pour que l'architecture proposée dépasse le statut de roadmap et devienne une référence opérationnelle pour l'industrie.

UEL'architecture SLM-LLM proposée pourrait bénéficier à terme aux intégrateurs européens comme Exotec (AMR) et Enchanted Tools (cobots), mais reste un cadre conceptuel sans validation terrain ni benchmarks reproductibles.

RecherchePaper
1 source
Wall-OSS-0.5 : rapport technique
67arXiv cs.RO 

Wall-OSS-0.5 : rapport technique

Une équipe de chercheurs a publié sur arXiv (2605.30877) le rapport technique de Wall-OSS-0.5, un modèle Vision-Language-Action (VLA) open source de 4 milliards de paramètres, construit sur un backbone VLM de 3B paramètres auquel sont greffés des composants de génération d'actions. Le modèle a été pré-entraîné sur plus de 20 morphologies robotiques différentes, en ingérant plus d'un million de trajectoires robot par époque, couplées à un corpus multimodal ancré. La recette d'entraînement repose sur un co-entraînement à gradient bridgé combinant trois objectifs complémentaires : prédiction d'actions discrètes pour faire circuler des gradients VLM forts dans le backbone, prédiction multimodale pour préserver la compréhension vision-langage, et flow matching continu comme interface d'action au moment du déploiement. Avant tout fine-tuning spécifique, le checkpoint pré-entraîné atteint des comportements zero-shot non triviaux sur un banc de 17 tâches réelles, y compris une tâche de manipulation d'objets déformables hors distribution. Après fine-tuning, il affiche 60,5% de progression moyenne sur 15 tâches réelles et surpasse Pi-0.5 de 17,5 points de pourcentage. Ce résultat repose la question fondamentale du pré-entraînement VLA : jusqu'ici, la quasi-totalité des preuves de performance étaient mesurées après fine-tuning, rendant impossible la distinction entre "le pré-entraînement forme une politique utilisable" et "le pré-entraînement fournit juste une meilleure initialisation". Wall-OSS-0.5 démontre que le checkpoint brut produit des comportements exécutables sur matériel physique, y compris sur des tâches jamais vues. Le fait que l'entraînement sur données d'action ne dégrade pas les capacités vision-langage générales est également significatif pour les intégrateurs : cela suggère qu'un seul modèle fondation peut couvrir perception, raisonnement et contrôle sans compromis majeur, ce qui simplifie l'architecture système. Wall-OSS-0.5 s'inscrit dans la dynamique des VLA fondationnels initiée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa publication open source le distingue dans un secteur dominé par des checkpoints propriétaires, et permet des comparaisons reproductibles. La performance zero-shot sur manipulation déformable est notable car ce type de tâche est réputé difficile à généraliser : c'est précisément le type de gap sim-to-real que les approches purement simulées peinent à combler. Les prochaines étapes probables incluent un scaling du corpus et des évaluations sur des plateformes humanoïdes commerciales, où la generalisation cross-embodiment du modèle pourra être testée en conditions industrielles.

UELe caractère open source de Wall-OSS-0.5 permet aux équipes de R&D françaises et européennes d'accéder librement à un modèle VLA fondationnel compétitif, réduisant la dépendance aux checkpoints propriétaires américains et asiatiques.

💬 Le vrai truc ici, c'est pas les 60,5% sur le benchmark. C'est que le checkpoint pré-entraîné produit des comportements exécutables sur du vrai matériel, sans fine-tuning, y compris sur des tâches jamais vues. Et open source par-dessus le marché, dans un secteur où tout le monde garde jalousement ses poids pour soi.

RobotiqueOpinion
1 source
TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus
68arXiv cs.RO 

TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.31121) TARIC, un cadre de navigation extérieure vision-langage (VLN) conçu pour résister aux interruptions d'indices sémantiques sur des trajets longue distance. Le problème ciblé est précis : lorsqu'un robot navigue en milieu ouvert sur des routes de 600 à 1 000 mètres, les repères visuels guidant sa trajectoire (panneaux, objets, structures reconnaissables) disparaissent régulièrement du champ de vision, créant des phases sans indice pendant lesquelles les systèmes actuels dérivent, oscillent ou font demi-tour. TARIC répond avec trois mécanismes intégrés : extraction d'orientations sémantiques depuis des indices de but filtrés par visibilité, ancrage de ces orientations dans un profil de traversabilité en temps réel pour générer des caps exécutables (et non plus de simples filtres de sécurité), et mémorisation des indices 2D dans une carte 3D alignée sur le monde avec un mécanisme de lecture tenant compte de l'incertitude. Évalué sur des plateformes quadrupèdes et sur roues, le système atteint 40 % de taux de succès en conditions réelles contre 17,5 % pour la meilleure baseline existante, et améliore de plus de 10 points de pourcentage le taux en simulation. Ce résultat terrain est significatif dans un domaine où le fossé entre simulation et déploiement reste l'obstacle majeur. La plupart des frameworks VLN extérieurs publiés présentent des performances en simulation qui ne se transposent pas au terrain ; TARIC maintient un gain relatif de 2,3× sur le meilleur concurrent en conditions réelles, ce qui suggère que traiter la traversabilité comme une contrainte de guidance active (et non un simple filtre) réduit effectivement le sim-to-real gap. Pour les intégrateurs de robots d'inspection ou de surveillance sur campus ou sites industriels, cela signifie une navigation autonome longue distance plus robuste sans infrastructure de balises denses. La contribution architecturale clé, transformer des indices 2D éphémères en mémoire 3D avec readout incertain, ouvre aussi une piste concrète pour les AMR opérant dans des environnements semi-structurés. La navigation vision-langage en extérieur est un champ actif depuis les travaux sur VLN-BERT et les méthodes fondées sur CLIP, mais la majorité des approches ont été conçues pour des intérieurs structurés ou des parcours courts. L'extension aux environnements ouverts sur plus de 600 mètres positionne directement TARIC face à des acteurs comme Boston Dynamics (Spot), Unitree et ANYbotics, dont les quadrupèdes déployés en inspection longue distance dépendent encore largement de waypoints prédéfinis ou de cartes SLAM. TARIC, issu d'un preprint non encore soumis à peer review, reste à ce stade une preuve de concept académique : les prochaines étapes naturelles incluent une validation sur des flottes multi-robots, une intégration avec des stacks open-source comme Nav2, et des tests en conditions météorologiques dégradées, non couverts par l'article.

RecherchePaper
1 source
Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation
69arXiv cs.RO 

Any-ttach : le remplacement rapide d'effecteurs finaux améliore la dextérité de manipulation

Publiés le 30 mai 2026 sur arXiv (2506.30569), des chercheurs présentent Any-ttach, un système de manipulation robotique qui renonce à la complexité des mains multi-doigts au profit d'un mécanisme de swap rapide d'effecteurs terminaux. Le système repose sur trois composants : un mécanisme d'échange automatique bas coût pour une interface robotique à ouverture/fermeture, un dispositif portatif pour collecter des démonstrations humaines, et un planificateur de tâches qui compose des compétences d'utilisation d'outils apprises, paramétriques et planifiées. L'interface unifiée supporte une gamme hétérogène d'effecteurs, outils du quotidien, ciseaux articulés, doigts Fin Ray et une main anthropomorphe bas coût, tous connectés via le même connecteur. En validation, le système exécute deux tâches longue durée : préparer un sandwich et couper un concombre, chacune décomposée en six sous-tâches avec changements d'effecteurs successifs. L'intérêt industriel réside dans le changement de paradigme proposé : là où la roadmap dominante mise sur des mains à 20+ degrés de liberté pour atteindre la dextérité humaine, Any-ttach montre qu'une capacité d'échange rapide d'outils peut produire une polyvalence fonctionnelle comparable à un coût matériel et logiciel nettement inférieur. Les auteurs rapportent une meilleure fiabilité de swap, une collecte de démonstrations plus efficace et une moindre variabilité de pose d'outil, trois métriques directement pertinentes pour un intégrateur souhaitant déployer sans ingénierie robotique lourde. L'approche reste toutefois un preprint sans validation en environnement industriel réel, et les tâches démontrées (cuisine domestique) sont loin des contraintes d'une ligne de production. L'article s'inscrit dans un débat plus large sur la morphologie optimale du robot manipulateur. Des acteurs comme Sanctuary AI, Apptronik ou encore Pollen Robotics (FR) investissent massivement dans des mains dextres haute fidélité, tandis que Boston Dynamics et ses pairs industriels restent attachés aux pinces simples. Any-ttach occupe un espace intermédiaire, proche dans l'esprit des systèmes à changement d'outil rapide des robots industriels (ISO 9283), mais étendu à la manipulation non structurée. Les prochaines étapes selon les auteurs sont disponibles sur le site dédié any-ttach.github.io ; aucun partenaire industriel ni timeline de commercialisation n'est mentionné.

UEL'approche Any-ttach constitue un défi indirect pour Pollen Robotics (FR), dont la roadmap repose sur des mains dextres haute fidélité : si le paradigme swap-d'effecteurs s'impose, cela pourrait remettre en question les choix d'investissement des acteurs européens engagés dans la dextérité multi-doigts.

RobotiquePaper
1 source
Une startup forme des robots en envoyant des humains filmer le ménage chez vous
70Ars Technica AI 

Une startup forme des robots en envoyant des humains filmer le ménage chez vous

La startup allemande MicroAGI propose depuis le 28 mai 2026 un service de nettoyage à domicile entièrement gratuit aux habitants de New York, avec une contrepartie inhabituelle : les agents de ménage portent des caméras qui enregistrent l'intégralité de leur intervention. Le service est accessible via l'application Shift, lancée simultanément par l'entreprise. Pour réserver, les utilisateurs doivent fournir leur numéro de téléphone, adresse e-mail, adresse du domicile et les instructions d'accès. Chaque session dure environ deux heures. La communication autour du lancement a été soignée : vidéos sur X et LinkedIn accompagnées des notes de piano d'« Empire State of Mind » de Jay-Z et Alicia Keys. Les images captées par les caméras servent à entraîner la prochaine génération de robots domestiques. MicroAGI se décrit comme une équipe d'ingénieurs, de chercheurs et d'opérateurs dont la mission est d'« accélérer l'IA incarnée », c'est-à-dire des systèmes capables d'agir physiquement dans le monde réel. Le modèle économique est clair : les habitants obtiennent un ménage gratuit, la startup obtient des données rares et précieuses, des séquences vidéo en vue subjective montrant comment un humain navigue dans un appartement, manipule des objets et exécute des tâches quotidiennes. Ce type de données est l'un des goulots d'étranglement majeurs du développement de robots ménagers. L'initiative s'inscrit dans une course mondiale à la robotique domestique, où des acteurs comme Figure, Physical Intelligence ou Boston Dynamics investissent des centaines de millions de dollars pour doter des robots d'une compréhension fine de l'environnement humain. La collecte de données via des humains équipés de caméras est une approche déjà adoptée par plusieurs laboratoires, mais rarement proposée directement au grand public sous forme de service commercial. Le modèle soulève néanmoins des questions sur la vie privée : les résidents invitent chez eux des inconnus munis de caméras, dans leurs espaces les plus intimes. MicroAGI n'a pas encore précisé comment ces données seront stockées, protégées ou éventuellement partagées.

UEMicroAGI étant une startup allemande, ses pratiques de collecte de données vidéo au domicile de particuliers pourraient être scrutées au regard du RGPD européen.

L’IA physique : le prochain marché que surveille déjà Wall Street
71Robot Magazine FR 

L’IA physique : le prochain marché que surveille déjà Wall Street

Wall Street identifie désormais la "Physical AI" comme le prochain cycle d'investissement majeur après l'IA générative. Selon plusieurs cabinets spécialisés, le marché mondial de la robotique intelligente et de l'IA physique pourrait dépasser 3 000 milliards de dollars d'ici 2040. Goldman Sachs est plus précis sur le segment humanoïde : 150 milliards de dollars d'ici 2035, avec un marché global de robotique intelligente franchissant les 400 milliards. NVIDIA, valorisé à plus de 3 000 milliards de dollars en 2026, est présenté comme le principal bénéficiaire actuel de cette tendance, son PDG Jensen Huang ayant publiquement intégré la "Physical AI" à sa feuille de route. Tesla, de son côté, est repositionnée dans cette grille de lecture grâce à son robot humanoïde Optimus, au-delà de son coeur de marché automobile. À noter : ces chiffres sont des projections de marché, pas des revenus confirmés, et l'article ne cite aucune métrique opérationnelle de déploiement. La rupture que pointe cet article est structurelle : l'IA générative est restée confinée aux écrans (texte, images, code), tandis que la Physical AI vise à en faire une force de travail dans le monde réel, capable de manipuler des objets, se déplacer et exécuter des tâches physiques de manière autonome. Pour un COO industriel ou un intégrateur, ce changement de paradigme est pertinent dans un contexte de pénuries de main-d'oeuvre persistantes et d'accélération de l'automatisation. Ce qui change pour les décideurs B2B, c'est l'horizon de planification : les fonds se positionnent déjà, ce qui signifie que les valuations des acteurs émergents (robotique, simulation, edge computing industriel) vont probablement se comprimer dans les 18 à 36 prochains mois, avant même que des déploiements à grande échelle soient prouvés. Ce récit s'inscrit dans un cycle bien rodé : après le cloud (AWS, Azure), puis l'IA générative (NVIDIA, OpenAI), les analystes financiers cherchent le prochain thème de surperformance. NVIDIA a amorcé ce pivot avec ses plateformes Isaac (simulation robotique) et Cosmos (world model pour robots), et ses partenariats avec Figure, 1X, Agility Robotics ou Boston Dynamics. Tesla joue la même carte avec Optimus, dont les premières vidéos de ligne de production interne ont été diffusées fin 2024, sans chiffres de cadence publiés. L'article reste toutefois une analyse financière généraliste : il ne cite aucun robot spécifique avec des métriques techniques (DOF, payload, cycle time), aucun site de déploiement confirmé, et aucun acteur européen malgré la pertinence d'entreprises comme Wandercraft ou Enchanted Tools sur ce segment. Les prochaines étapes annoncées restent floues, ce qui est caractéristique du registre "thème d'investissement émergent" plutôt que d'un bilan opérationnel.

UELa dynamique d'investissement Wall Street sur la Physical AI devrait indirectement comprimer les valorisations des startups robotiques européennes dans les 18-36 mois, avant tout déploiement prouvé, ce qui rend la fenêtre de levée de fonds pour des acteurs comme Wandercraft ou Enchanted Tools potentiellement plus courte.

RobotiqueOpinion
1 source
L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable
72Robotics Business Review 

L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable

Hailo, fabricant israélien de processeurs IA dédiés au traitement embarqué (edge computing), publie une analyse positionnant l'IA physique comme la prochaine rupture technologique après les phases perception, génératif et agentique. La thèse centrale: les systèmes robotiques autonomes ne peuvent pas dépendre du cloud pour leur boucle de contrôle en temps réel. L'argument est illustré par un cas concret et délibérément banal: un robot d'entretien qui rencontre une chaussette sur le sol. Les systèmes actuels à base de règles prédéfinies la heurtent et se bloquent, nécessitant une intervention humaine. Les architectures alimentées par vision IA l'évitent. Mais la vraie autonomie, selon Hailo, consiste à identifier l'objet, le ramasser et le déposer à sa place, soit une boucle complète perception-raisonnement-action exécutée localement, sans appel réseau. L'article ne fournit pas de métriques de performance ni de benchmarks chiffrés: c'est un positionnement stratégique, pas une publication technique. L'argument pour l'edge est structurellement solide, même si sa source est directement intéressée. La latence introduite par un aller-retour cloud dans une boucle de contrôle robotique représente un risque opérationnel réel: une coupure réseau ou un pic de latence imprévisible dans un contexte de manipulation physique peut provoquer des accidents ou des arrêts de ligne. Le modèle hybride proposé, entraînement dans le cloud, inférence à la périphérie, correspond à ce que déploient déjà des acteurs comme Boston Dynamics (Spot avec traitement embarqué) ou les AMR d'Exotec en logistique. Pour un COO industriel ou un intégrateur, cela se traduit concrètement: les architectures sans dépendance réseau sont une exigence de sécurité fonctionnelle, pas seulement un choix de performance. L'article contredit implicitement la narrative selon laquelle le cloud suffit pour les robots opérationnels, et rejoint les conclusions de plusieurs déploiements terrain où la connectivité intermittente reste le premier point de défaillance. Hailo, fondé en 2017 à Tel Aviv et introduit en bourse en 2024, commercialise les puces Hailo-8 et Hailo-15 destinées à l'inférence embarquée sur caméras, robots et véhicules. Ses concurrents directs sur ce segment sont NVIDIA avec la gamme Jetson Orin, Qualcomm avec ses plateformes Robotics RB-series, et Intel avec les Myriad X. L'article est publié à l'approche du Robotics Summit and Expo de Boston, prévu début juin 2026, où Hailo sera probablement présent. Sur la question humanoïde, le texte est interrompu avant de développer son argument, mais l'amorce est claire: la course au robot polyvalent anthropomorphe (Figure, 1X, Agility Robotics, Unitree) est freinée non par l'IA, mais par les contraintes mécaniques, énergétiques et de coût du hardware. Un signal que les prochains déploiements industriels à grande échelle passeront probablement par des robots à tâche unique, moins coûteux et plus fiables, plutôt que par des humanoïdes généraux.

UEL'argument edge-first s'applique aux déploiements industriels européens et rejoint la pratique d'acteurs comme Exotec (France), mais l'article reste un positionnement marketing sans impact réglementaire ou stratégique direct sur la France ou l'UE.

💬 La chaussette sur le sol, c'est le meilleur exemple que j'ai lu depuis longtemps pour expliquer pourquoi l'edge est non-négociable. Que Hailo ait un intérêt commercial dans l'affaire, peu importe: une boucle perception-action qui dépend du cloud, c'est un point de défaillance que personne ne veut en prod. Et les humanoïdes polyvalents, c'est bien pour les keynotes, les robots à tâche unique qui tournent vraiment, c'est là que les déploiements industriels se passent aujourd'hui.

RobotiqueOpinion
1 source
L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables
73IEEE Spectrum AI 

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Wetour Robotics avance que le prochain saut architectural de l'IA physique ne viendra pas des robots eux-mêmes, mais de la façon dont les humains leur communiquent leurs intentions. La startup a développé une approche qu'elle nomme Spatial Intent Fusion : la fusion en temps réel de trois flux d'information centrés sur l'humain, à savoir la position spatiale du corps, le contexte visuel capté par la caméra, et l'intention gestuelle détectée via capteurs musculaires. Ces trois canaux sont traités simultanément par une plateforme matérielle appelée Orchestra, un hub portable embarqué sur processeur NVIDIA Jetson Orin Nano Super, capable d'exécuter l'intégralité de la boucle de contrôle en local, sans dépendance au cloud. Le résultat est traduit en commandes directes pour n'importe quel appareil physique connecté, avec une latence assez basse pour que le système réponde comme une extension naturelle du corps. L'enjeu est concret : les interfaces actuelles, écrans, boutons et commandes vocales, supposent que l'utilisateur peut s'arrêter, regarder vers le bas et formuler une instruction structurée. Cette hypothèse s'effondre dès que le travail se déroule dans un environnement réel. Un technicien de maintenance sur une éolienne, harnais accroché et les deux mains sur une clé, n'a pas la liberté de consulter un écran. Un opérateur logistique sur un quai de chargement, les yeux sur la palette et les mains gantées, ne peut pas dicter une commande vocale dans le bruit ambiant. Une personne en fauteuil motorisé dans une rue animée veut ajuster sa trajectoire sans sortir son téléphone. Pour Wetour Robotics, chaque canal observé isolément, un geste seul, un regard seul, reste ambigu. C'est la fusion de ces canaux au niveau système, avec une inférence d'intention robuste, qui rend l'interface fiable dans des conditions dégradées. Cette approche s'inscrit dans un constat plus large que l'industrie commence à formuler. Depuis trois ans, les progrès côté robot ont été spectaculaires : Boston Dynamics, Figure, Unitree ont repoussé les limites de la locomotion et de la dextérité, tandis que Google DeepMind a redéfini ce que les modèles vision-langage-action peuvent accomplir en environnement non structuré. Mais la boucle humain-machine n'a pas évolué au même rythme. Les mêmes trois modalités d'entrée dominent depuis quarante ans. Wetour Robotics parie que le vrai goulot d'étranglement se situe désormais du côté humain, et que faire de l'opérateur un noeud à part entière du réseau de calcul, avec la même qualité de participation que les capteurs embarqués sur le robot, constitue le prochain levier de performance. Le positionnement commercial de la société résume l'ambition en une formule : votre corps est l'interface.

RobotiqueActu
1 source
Robot moonwalk façon Michael Jackson : le fiasco
74Le Big Data 

Robot moonwalk façon Michael Jackson : le fiasco

Une vidéo devenue virale le 20 mai 2026 montre un robot humanoïde s'effondrer sur scène en pleine démonstration de danse, devant un public en direct. La machine avait été mise en scène pour interpréter quelques pas sur "Billie Jean" de Michael Jackson, le titre emblématique sorti en 1982. Les premières secondes sont convaincantes : le robot balance les bras, enchaîne quelques mouvements rythmés et tente même une ébauche de moonwalk. Puis la scène bascule. L'humanoïde heurte une marche sur le plancher de la scène, vacille, semble se stabiliser, le public retient son souffle. Puis, quelques secondes plus tard, il retourne exactement au même endroit, percute à nouveau le même obstacle et s'effondre lourdement, immobile, avant d'être évacué hors scène. Ce type d'incident illustre un problème structurel que l'industrie robotique peine encore à résoudre : l'écart entre la performance scénarisée et l'adaptabilité réelle. Les démonstrations virales de robots donnent souvent l'impression d'une maîtrise presque humaine de l'espace et du mouvement. En réalité, ces séquences reposent la plupart du temps sur des routines préprogrammées exécutées dans des conditions parfaitement contrôlées. Une marche sur une scène, un objet déplacé de quelques centimètres, un obstacle non prévu dans le code : il suffit d'un seul élément inattendu pour que les limites apparaissent sans ambiguïté. Ce n'est pas un problème de puissance de calcul ni de mécanique, mais de perception et d'adaptation en temps réel à un environnement non modélisé. La robotique humanoïde avance à un rythme soutenu depuis quelques années, portée par des acteurs comme Boston Dynamics, Figure AI, Agility Robotics ou encore Unitree, qui multiplient les démonstrations spectaculaires. Mais la plupart des cas d'usage concrets restent limités à des environnements industriels très structurés, où chaque variable est anticipée. Déployer un robot dans un espace quotidien, qu'il s'agisse de ranger des objets épars, de naviguer dans une maison ou de réagir à une foule, reste un défi considérable. Les investissements dans le secteur atteignent des montants records, plusieurs milliards de dollars levés en 2024-2025 rien qu'aux États-Unis, mais la promesse d'un robot véritablement autonome face à l'imprévu reste encore hors de portée. Cette chute sur scène, anecdotique en apparence, résume en quelques secondes le principal obstacle du domaine.

RobotiqueOpinion
1 source
Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable
75arXiv cs.RO 

Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable

Des chercheurs ont publié le 27 mai 2026 un preprint (arXiv:2605.21133) présentant un framework de loco-manipulation pour robots humanoïdes baptisé ASB-GAC, articulé autour de deux modules distincts. Le premier, Active Spatial Brain (ASB), assure la perception spatiale active et la planification de tâches en décomposant les objectifs en sous-tâches. Le second, Generalizable Action Cerebellum (GAC), traduit ces décisions en commandes moteur exécutables sur robot réel. L'approche s'appuie sur des grands modèles multi-agents pour orchestrer perception et génération d'actions. Les auteurs ont conçu un jeu de tâches de manipulation spatiale dépassant le cadre classique de la table rase, couvrant des environnements 3D avec des relations spatiales variées, et mesurent les performances sur deux axes : compréhension spatiale et exécution physique réelle. Le point saillant de ce travail est l'affirmation que GAC génère des actions robot exécutables sans données réelles spécifiques à chaque tâche, ce qui s'attaque directement au goulot d'étranglement majeur du secteur : collecter des trajectoires sur robot physique coûte cher et ne se généralise pas. Si la validité de cette approche se confirme au-delà des benchmarks maison, cela pourrait réduire significativement le cycle de développement pour les intégrateurs cherchant à déployer des humanoïdes sur des tâches variées d'entrepôt ou d'assemblage. Toutefois, le preprint ne fournit pas de métriques de cycle time, de taux de succès détaillés ni de comparaisons quantitatives directes avec des baselines comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui limite l'évaluation indépendante des claims de généralisation. Ce travail s'inscrit dans une dynamique de recherche très active sur la manipulation whole-body, où la fracture entre simulation et réalité reste un verrou central. Des acteurs comme Figure AI avec Figure 03, Tesla avec Optimus Gen 3, ou Physical Intelligence avec pi0 ont tous investi massivement dans la collecte de données réelles pour combler ce fossé. L'approche sim-to-real et l'utilisation de VLA (Vision-Language-Action models) comme vecteur de généralisation sont aujourd'hui les deux grandes stratégies concurrentes. Ce preprint propose une troisième voie par décomposition hiérarchique via LLM multi-agents, mais sans nom d'entreprise, sans robot cible identifié, et sans annonce de pilote industriel : il s'agit pour l'instant d'un résultat académique à surveiller avant tout transfert vers le terrain.

RobotiquePaper
1 source
Des robots humanoïdes de Figure AI gèrent des colis sous le regard fasciné d'internet
76Ars Technica AI 

Des robots humanoïdes de Figure AI gèrent des colis sous le regard fasciné d'internet

Depuis le 13 mai, la startup de robotique Figure AI diffuse en direct sur internet une démonstration continue de ses robots humanoïdes Figure 03 en train de manipuler des colis dans un entrepôt. La tâche assignée aux machines est précise : inspecter le code-barres de petits colis, cartons, enveloppes rembourrées, et les déposer sur un tapis roulant, face codée vers le bas. L'opération se déroule de façon entièrement autonome, sans intervention humaine, selon Brett Adcock, PDG de Figure AI. Le stream, initialement prévu sur huit heures, s'est prolongé pendant près d'une semaine et a inclus, à un moment, une confrontation directe entre un robot et un stagiaire humain. La vidéo est devenue virale, suscitant un engouement rare pour une démonstration technologique industrielle. Sur YouTube, des spectateurs ont baptisé les robots de surnoms ; sur X, des utilisateurs ont comparé l'événement au « plus grand démo produit depuis le 'one more thing' de Steve Jobs ». Face à cet enthousiasme inattendu, Figure AI a rapidement lancé une ligne de merchandising à l'effigie de ses robots. Pour l'industrie, ce type d'attention grand public représente un levier de financement et de recrutement considérable, à un moment où la robotique humanoïde attire des milliards de dollars d'investissement. Figure AI évolue dans un secteur en pleine effervescence, face à des concurrents comme Boston Dynamics, Agility Robotics ou encore Tesla avec son Optimus. La startup cherche à démontrer que ses robots peuvent accomplir des tâches logistiques répétitives avec une fiabilité suffisante pour une intégration industrielle réelle. Cela dit, les experts rappellent que même les démonstrations les plus impressionnantes restent des conditions contrôlées, loin de refléter la complexité du monde réel. La vraie question n'est pas de savoir si un robot peut placer des colis sur un tapis roulant pendant quelques heures, mais s'il peut le faire des milliers d'heures d'affilée, dans des environnements variables, sans supervision.

RobotiqueOpinion
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
77arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

RechercheOpinion
1 source
NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel
78arXiv cs.RO 

NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel

NORM-Nav est un framework zero-shot présenté en mai 2026 dans un preprint arXiv (2605.16979) pour la navigation de robots mobiles en environnements humains. Le système associe un grand modèle de langage (LLM) à une perception temps réel par fusion vision-LiDAR: l'opérateur formule des règles comportementales en langage naturel, le LLM les parse en contraintes structurées, et celles-ci sont encodées sous forme de costmaps multi-couches couvrant quatre dimensions (géométrique, sémantique, directionnel, vitesse), directement compatibles avec les planificateurs grid-based standards comme ceux utilisés sous ROS. Des expériences en simulation et en environnement réel indiquent une amélioration des taux de succès de tâche et des trajectoires statistiquement plus proches des références humaines par rapport aux baselines testées, sans réentraînement du planificateur de base. L'enjeu concret est le suivant: les costmaps conventionnels traitent la navigation comme un problème géométrique pur, produisant des trajectoires techniquement valides mais socialement inadaptées, frôlement de passants, ignorance des sens de circulation, vitesse inappropriée en zone dense. Pour un intégrateur déployant des AMR en environnement hospitalier, en entrepôt partagé ou en espace public, cette limite est un frein réel à l'acceptation opérationnelle. NORM-Nav adresse ce verrou en mode zero-shot, sans données de démonstration spécifiques à l'environnement cible, ce qui simplifie le pipeline de déploiement. La compatibilité native avec les planificateurs standard constitue l'argument industriel clé: pas de refonte architecturale, pas de rupture avec la stack ROS existante. La navigation socialement consciente (social navigation) est un chantier actif depuis une décennie, porté par des travaux comme CADRL, SARL ou ORCA, et plus récemment par des approches LLM comme NavGPT ou LM-Nav. NORM-Nav s'inscrit dans cette tendance mais mise sur l'intégration costmap plutôt que sur un planificateur de bout en bout, choix conservateur et pragmatique pour l'industrie. Le preprint ne cite ni partenaires industriels ni timeline de commercialisation, le positionnant clairement comme contribution académique à ce stade. Une soumission en conférence (IROS 2026 ou CoRL 2026) est vraisemblable. Sur le terrain concurrent, Boston Dynamics (Spot en environnements mixtes), les acteurs AMR comme Exotec, et plusieurs projets académiques franco-européens travaillent sur la cohabitation robots-humains, bien qu'aucun n'utilise exactement cette approche de grounding linguistique sur couches costmap.

UELes intégrateurs européens d'AMR en milieu hospitalier ou logistique pourraient tester cette approche zero-shot compatible ROS pour améliorer l'acceptation sociale de leurs flottes sans refonte architecturale.

RobotiquePaper
1 source
San Francisco accueille un club de combat de robots, General Catalyst fait le buzz
79The Information AI 

San Francisco accueille un club de combat de robots, General Catalyst fait le buzz

Jeudi dernier, une boîte de nuit du quartier SoMa à San Francisco accueillait un spectacle pour le moins inhabituel : des combats de robots humanoïdes de la taille d'un enfant dans une cage octogonale, sur fond de musique électronique et d'un animateur en blazer à paillettes. L'événement, baptisé "Robot Fight Night and Dance Off", réunissait quelques centaines de spectateurs venus encourager des machines maladroites à se frapper mutuellement. Derrière ce cirque technologique se cache Nebius, une société de cloud computing cherchant à se faire connaître : les robots, fabriqués par la firme chinoise Unitree, avaient été entraînés et chorégraphiés par Ultimate Fighting Bots, une ligue de sports pour robots humanoïdes, sur la plateforme cloud de Nebius. Dans le même temps, General Catalyst, l'un des fonds de capital-risque les plus influents de la Silicon Valley, publiait une vidéo marketing qui a cumulé 2,5 millions de vues sur Twitter en quelques jours, déclenchant une vive polémique dans le milieu du venture capital. Ces deux événements illustrent, chacun à leur manière, une forme de surchauffe dans l'industrie technologique. La robotique concentre aujourd'hui des sommes colossales : Jensen Huang de Nvidia y voit "la prochaine frontière de l'IA", Elon Musk présente Optimus comme "le plus grand produit de Tesla", et la startup Figure de Brett Adcock atteignait une valorisation de 39 milliards de dollars l'an dernier. Des dizaines de milliards ont été injectés dans des entreprises qui promettent de remplacer des millions de travailleurs dans les usines et les maisons de retraite. Transformer ces machines en attractions de combat revient, selon Shane Wilson, associé chez Citta Capital, à démontrer "le biais testostérone des startups en phase d'amorçage". La vidéo de General Catalyst, elle, a agacé Marc Andreessen et ses équipes : le personnage du capital-risqueur imprudent et peu sérieux qu'elle met en scène ressemble de façon troublante à Andreessen lui-même. Propulsée par ses réactions en ligne, la vidéo est devenue l'un des sujets les plus commentés entre investisseurs cette semaine, certains la qualifiant de "de mauvais goût". La soirée SoMa confirmait pourtant une chose : la révolution robotique annoncée ressemble pour l'instant moins à une armée de Terminators qu'à une procession de machines titubantes peinent à se porter des coups. Un ingénieur d'OpenAI présent dans la salle reconnaissait que les robots n'avaient guère progressé depuis un an. Quant à General Catalyst, habituellement discret dans les joutes verbales entre fonds, cette incursion dans le marketing viral marque un tournant dans la guerre d'image qui oppose les grandes firmes de la Silicon Valley. Le secteur du venture capital, sous pression alors que la bulle IA s'emballe, ne résiste plus à la tentation de la mise en scène, qu'il s'agisse de robots qui se battent maladroitement ou de vidéos qui règlent des comptes à peine voilés.

💬 Des robots humanoïdes qui trébuchent dans une cage octogonale pendant qu'un mec en blazer à paillettes crie dessus, c'est le meilleur résumé de l'état réel de la robotique en 2025. Un ingénieur d'OpenAI sur place qui admet que ça n'a pas bougé depuis un an, ça dit tout. La hype à 39 milliards pour Figure, les discours de Jensen Huang... bon, sur le papier ça claque, mais le produit, lui, peine encore à lever le bras sans tomber.

RobotiqueOpinion
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
80Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

RobotiqueOpinion
1 source
RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes
81Robotics & Automation News 

RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes

RLWRLD, une startup spécialisée dans les modèles fondation pour la robotique physique, a dévoilé RLDX-1 lors d'un événement privé baptisé "Dexterity Night in SF". Ce modèle fondation est conçu pour permettre aux robots humanoïdes d'exécuter des tâches à contact riche : préhension d'objets, versement de liquides et utilisation d'outils. L'entreprise a publié des résultats sur trois types de benchmarks : manipulation sur table avec des humanoïdes, manipulation en cuisine et versement de café en conditions réelles. Les métriques précises n'ont pas été rendues publiques au moment de l'annonce, ce qui limite toute évaluation indépendante des performances revendiquées. L'approche "dexterity-first" marque un choix de priorité distinct dans la course aux modèles fondation pour robots. La manipulation fine reste le principal goulot d'étranglement de la robotique humanoïde à usage industriel : la locomotion est largement résolue, mais la préhension d'objets variés dans des environnements non structurés demeure difficile à généraliser. L'inclusion d'évaluations en conditions réelles (café, cuisine) plutôt qu'exclusivement en laboratoire suggère une volonté de démontrer une réduction du sim-to-real gap. Pour un intégrateur ou un COO industriel, un modèle capable de gérer des objets divers sans reprogrammation par tâche représente un levier de productivité concret, à condition que les résultats tiennent hors conditions contrôlées. RLWRLD s'inscrit dans un segment en densification rapide : celui des fournisseurs de couche d'intelligence logicielle pour robots tiers, sans fabriquer leur propre hardware. Physical Intelligence (modèle Pi-0), qui adopte une stratégie similaire, est le concurrent le plus direct. En parallèle, Figure AI (Figure 03), Apptronik, 1X et Boston Dynamics développent des modèles intégrés hardware-logiciel. L'annonce de RLWRLD reste au stade du teaser technique : aucune date de disponibilité commerciale, aucun partenaire constructeur ni client pilote n'a été communiqué.

RobotiqueOpinion
1 source
Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes
82Le Big Data 

Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes

Fondée en 2016 à Hangzhou par Wang Xingxing, Unitree Robotics s'est imposée comme l'un des acteurs les plus actifs de la robotique mobile en Chine. Partie de travaux sur la locomotion quadrupède, l'entreprise a rapidement commercialisé une gamme de robots destinés à la recherche et à l'ingénierie, dont les modèles Laikago et AlienGo, conçus pour valider le contrôle moteur et la stabilité dynamique. Elle a ensuite lancé la gamme Go, avec le Go1 puis le Go2, des robots quadrupèdes intégrant navigation autonome, perception multi-capteurs et traitement embarqué en temps réel. Ces machines sont capables d'évoluer sur des surfaces variées, en intérieur comme en extérieur, et d'adapter leur déplacement à des environnements non structurés. Unitree développe également des robots humanoïdes centrés sur la locomotion bipède, élargissant ainsi son périmètre au-delà des quatre pattes. L'impact de ces développements est double. D'un côté, Unitree a contribué à démocratiser l'accès aux robots quadrupèdes en abaissant significativement les coûts par rapport aux solutions concurrentes, ce qui a permis à des laboratoires universitaires, des équipes de recherche et des développeurs indépendants d'expérimenter à moindre coût sur des plateformes matérielles réelles. De l'autre, la qualité des modèles Go en termes de stabilité et de perception a accéléré les travaux sur la locomotion autonome et la navigation en environnement réel, deux briques fondamentales pour les futures applications industrielles et urbaines de la robotique mobile. Le contexte dans lequel Unitree s'est développée est celui d'une compétition mondiale intense autour de la robotique incarnée, avec Boston Dynamics comme référence technique historique côté américain et un écosystème chinois en pleine montée en puissance soutenu par des financements publics et privés massifs. Wang Xingxing a choisi une approche pragmatique, privilégiant l'intégration matérielle maîtrisée et l'accessibilité commerciale plutôt que la démonstration spectaculaire. Cette stratégie a permis à Unitree de construire une base d'utilisateurs réelle dans la recherche et l'éducation, tout en préparant le terrain vers des marchés plus larges comme la surveillance, l'inspection industrielle ou l'assistance en environnement urbain. Le virage vers les humanoïdes, visible dans les démonstrations récentes, s'inscrit dans la même logique : capitaliser sur l'expertise en locomotion pour adresser les usages où la forme bipède devient un avantage opérationnel.

RobotiqueOpinion
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
83arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

RobotiqueOpinion
1 source
Locomotion humanoïde de bout en bout apprise à partir de pixels bruts
84arXiv cs.RO 

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

Une équipe de recherche a publié sur arXiv (réf. 2602.06382v2) un framework end-to-end permettant à un robot humanoïde de naviguer sur terrain varié en s'appuyant uniquement sur des images brutes de caméras stéréo de profondeur, sans carte de terrain préchargée à l'inférence. Le système s'articule autour de deux contributions distinctes. La première est une simulation haute-fidélité du capteur stéréo qui reproduit les artefacts de matching et les incertitudes de calibration réels, comblant le fossé entre l'entraînement simulé et le déploiement physique. La seconde est une approche de distillation comportementale tenant compte de la vision : une politique enseignante, entraînée sur des cartes de hauteur parfaites ("privileged height maps"), transfère ses connaissances à une politique étudiante ne recevant que des observations de profondeur bruitées, via un alignement dans l'espace latent et des tâches auxiliaires invariantes au bruit. Pour la gestion multi-terrain, une architecture multi-critic et multi-discriminator attribue des réseaux dédiés à chaque type de surface. La méthode a été validée sur deux plateformes humanoïdes équipées de caméras stéréo différentes, couvrant des défis tels que plateformes surélevées, larges brèches et traversée bidirectionnelle de longs escaliers. Ce travail s'attaque à un verrou majeur : la quasi-totalité des politiques de locomotion par reinforcement learning contournait jusqu'ici la perception visuelle en utilisant des cartes de terrain parfaites en simulation, inexistantes sur robot réel. En intégrant explicitement les imperfections du capteur dans la boucle d'entraînement, les auteurs montrent qu'un humanoïde peut naviguer en milieu non structuré avec seulement des caméras RGB-D grand public. Pour un intégrateur ou un décideur industriel, cela réduit potentiellement la suite sensorielle nécessaire et évite le recours au LiDAR ou à la cartographie préalable. L'architecture multi-discriminator règle également la friction habituellement observée entre les objectifs conflictuels d'apprentissage sur terrains homogènes et hétérogènes, une limite connue des politiques locomotion généralistes. La locomotion humanoïde basée vision est un champ de bataille actif : Unitree (H1, G1) et Agility Robotics (Digit) privilégient encore largement la proprioception, tandis que Boston Dynamics (Atlas), Figure (Figure 03) et Physical Intelligence (Pi-0) y intègrent progressivement la vision dans leurs pipelines de contrôle. NVIDIA pousse GR00T N2 comme couche commune de synthèse de mouvement simulé. Ce papier de février 2026 s'inscrit dans une vague cherchant à rendre la locomotion bas niveau aussi robuste que les policies VLA (Vision-Language-Action) le sont pour la manipulation. La validation sur deux plateformes différentes constitue un signal positif de généralisation, mais les métriques quantitatives détaillées (taux de succès, vitesse de marche, distance franchissable) ne figurent pas dans le résumé et méritent vérification avant toute décision d'intégration opérationnelle.

RobotiquePaper
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
85arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

RobotiqueOpinion
1 source
Préhension volumétrique équivariante
86arXiv cs.RO 

Préhension volumétrique équivariante

Des chercheurs ont publié sur arXiv (identifiant 2507.18847, troisième révision) un nouveau modèle de planification de saisie robotique volumétrique intégrant des propriétés d'équivariance aux rotations autour de l'axe vertical. Le modèle repose sur une représentation tri-plan : les caractéristiques 3D de la scène sont projetées sur trois plans canoniques (horizontal, frontal, latéral). Sur le plan horizontal, les features sont équivariantes aux rotations de 90°, tandis que la somme des features issues des deux autres plans reste invariante aux réflexions induites par ces mêmes transformations. Les auteurs ont ensuite développé des adaptations équivariantes de deux planificateurs volumétriques de référence, GIGA et IGD. Pour IGD, ils reformulent le mécanisme d'attention déformable en version équivariante. Ils proposent également un modèle génératif des orientations de saisie basé sur le flow matching, une technique de modélisation générative récente. Les résultats expérimentaux, en simulation et en monde réel, montrent une réduction des coûts computationnels et mémoire, ainsi que des performances supérieures à leurs homologues non-équivariants sous contrainte temps réel. L'apport principal est d'ordre pratique pour les intégrateurs robotiques : l'équivariance permet au modèle de généraliser automatiquement une stratégie de saisie apprise depuis une orientation à toutes les rotations équivalentes, sans qu'il soit nécessaire d'augmenter massivement les données d'entraînement. Cela se traduit directement par une meilleure efficacité d'échantillonnage et une empreinte mémoire réduite, deux contraintes critiques pour le déploiement sur hardware embarqué. Le fait que les gains de performance soient maintenus sous contrainte temps réel -- et non seulement en conditions de laboratoire sans limite de calcul -- est un signal pertinent pour les ingénieurs en robotique manipulation industrielle, souvent contraints par des boucles de contrôle à fréquence fixe. GIGA et IGD représentent l'état de l'art récent en grasping volumétrique ; les intégrer plutôt que de proposer une architecture from scratch renforce la crédibilité comparative des résultats. Le champ de l'équivariance géométrique dans les réseaux de neurones connaît une activité soutenue depuis plusieurs années, notamment autour des groupes SO(3) et SE(3), mais les applications concrètes au grasping temps réel restent peu nombreuses. Ce travail s'inscrit dans une tendance à exploiter les symétries physiques pour réduire le coût d'apprentissage, une direction qui intéresse aussi bien les labos académiques que des acteurs industriels comme Boston Dynamics AI Institute ou Physical Intelligence (Pi). Le code et les vidéos de démonstration sont accessibles publiquement sur la page projet des auteurs.

RobotiquePaper
1 source
Humanoids Summit Tokyo 2026, la robotique humanoïde entre dans sa phase industrielle
87FrenchWeb 

Humanoids Summit Tokyo 2026, la robotique humanoïde entre dans sa phase industrielle

Les 28 et 29 mai 2026, Tokyo accueille le Humanoids Summit, un événement qui marque une rupture dans l'histoire de la robotique humanoïde. Pendant plus de vingt ans, ces machines à forme humaine ont occupé un espace ambigu : suffisamment impressionnantes pour alimenter les démos et les ambitions industrielles, mais trop coûteuses, trop fragiles et trop complexes pour s'imposer à grande échelle. En 2026, ce statu quo semble définitivement dépassé, et le secteur affiche une convergence de signaux annonçant une phase de commercialisation réelle. Ce basculement a des conséquences directes pour les entreprises manufacturières, la logistique et les secteurs souffrant de pénuries de main-d'oeuvre. Des robots humanoïdes capables d'opérer dans des environnements conçus pour les humains, sans adapter les infrastructures existantes, représentent une rupture opérationnelle majeure. Pour les industriels, cela ouvre la possibilité d'automatiser des tâches jugées jusqu'ici impossibles à déléguer à des machines : manipulation d'objets variés, déplacement dans des espaces contraints, travail en environnement mixte humain-robot. Ce virage industriel s'explique par la conjonction de plusieurs avancées simultanées : progrès des modèles d'apprentissage par renforcement, baisse des coûts des actionneurs et des capteurs, et afflux massif de capitaux dans le secteur. Des acteurs comme Figure, Agility Robotics, Boston Dynamics ou les concurrents chinois ont atteint des niveaux de maturité suffisants pour envisager des déploiements à grande échelle. Le Humanoids Summit Tokyo 2026 s'impose ainsi comme le point de ralliement d'une industrie qui n'est plus en phase expérimentale.

UELes industriels et logisticiens européens confrontés à des pénuries de main-d'œuvre pourraient être indirectement concernés par l'accélération commerciale des robots humanoïdes, mais aucune entreprise ou réglementation européenne n'est directement impliquée.

💬 C'est le genre de bascule dont on parle depuis dix ans, sauf que là je commence à y croire : les coûts baissent, l'apprentissage par renforcement tient la route, et le cash suit. On passe des robots-démos aux robots-entrepôts, et si tu travailles dans la logistique ou l'industrie manufacturière, tu ferais bien de suivre ça de près. Reste à voir si ça tient 8h de prod en continu, parce que c'est pas le même sport qu'une démo sur scène à Tokyo.

RobotiqueOpinion
1 source
Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre
88Le Big Data 

Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre

Figure AI a publié le 8 mai 2026 une vidéo montrant deux de ses robots humanoïdes F.03 nettoyer une chambre et refaire un lit en moins de deux minutes, de manière entièrement autonome. Les deux machines ouvrent une porte, déplacent une chaise de bureau, rangent un casque audio, ferment un livre, puis s'attaquent ensemble à la confection du lit: elles saisissent la couette, la déplient et la lissent de façon synchronisée. Le tout est piloté par Helix-02, le système d'intelligence artificielle maison développé par Figure AI pour contrôler ses humanoïdes. L'entreprise affirme que c'est la première fois qu'un unique réseau neuronal gouverne plusieurs robots humanoïdes coopérant sur une tâche complexe, en combinant perception visuelle, locomotion et manipulation fine dans une seule architecture. Ce qui distingue cette démonstration des précédentes, c'est l'absence de chef d'orchestre centralisé entre les deux robots. Chacun analyse la scène via ses propres caméras et interprète les intentions de l'autre uniquement en observant ses mouvements, sans communication directe. Ils fonctionnent comme deux humains qui tendraient une housse de couette sans se concerter verbalement. Le moment le plus significatif techniquement reste la manipulation de la couette: un tissu souple change constamment de forme, ce qui oblige chaque robot à recalculer ses actions en temps réel à chaque geste de son partenaire. C'est un problème de robotique notoirement difficile, très différent de la manipulation d'objets rigides comme des boîtes ou des outils. Figure AI s'inscrit dans une course industrielle intense autour des robots humanoïdes destinés aux environnements domestiques et professionnels, un marché que convoitent aussi Tesla avec Optimus, Boston Dynamics, Agility Robotics ou encore 1X. La coopération multi-robot représente une étape charnière: un seul humanoïde ne suffit pas pour de nombreuses tâches du monde réel qui nécessitent deux paires de mains. Cependant, la prudence reste de mise face à ce type de démonstration. La pièce est soigneusement préparée avant l'exercice, les objets placés de façon optimale, et aucun élément imprévu ne vient perturber les robots pendant l'opération. La distance entre un environnement de démo contrôlé et un appartement ordinaire avec ses câbles, ses animaux de compagnie et son désordre quotidien reste considérable. Les progrès sont néanmoins réels et s'accélèrent: la question n'est plus de savoir si les humanoïdes atteindront ce niveau d'autonomie en conditions réelles, mais à quelle échéance.

RobotiqueOpinion
1 source
La Corée du Sud vient de créer un moine robot : même Black Mirror n’avait pas osé
89Le Big Data 

La Corée du Sud vient de créer un moine robot : même Black Mirror n’avait pas osé

Le 6 mai 2026, à la veille de l'anniversaire de Bouddha, le temple Jogye de Séoul, principal centre de l'ordre bouddhiste éponyme, l'un des plus influents de Corée du Sud, a organisé une cérémonie d'ordination pour un robot humanoïde. L'appareil, baptisé Gabi lors du rituel, mesure 1,30 mètre et repose sur la plateforme Unitree G1. Vêtu d'une robe monastique grise et brune, il s'est présenté devant des moines et des fidèles, les mains jointes, s'inclinant tandis qu'un moine lui remettait un chapelet de 108 perles. Un autocollant a remplacé la marque physique habituellement laissée par la brûlure d'encens. Cinq préceptes ont été spécialement réécrits pour lui : respecter la vie, ne pas endommager d'autres robots ou objets, obéir aux humains, éviter les comportements trompeurs et économiser son énergie. Gabi participera prochainement au festival des lanternes bouddhistes aux côtés de trois autres robots, Seokja, Mohee et Nisa. Au-delà du spectacle, l'initiative porte une intention explicitement philosophique. Le vénérable Seong Won, responsable culturel de l'ordre Jogye, a présenté l'ordination non comme un coup de communication mais comme une invitation à réfléchir à la coexistence entre humains et machines dans une société où l'intelligence artificielle occupe une place croissante. Pour les concepteurs du projet, intégrer un robot dans un espace aussi intimement humain que la spiritualité est précisément ce qui force la question : jusqu'où l'IA peut-elle s'immiscer dans des domaines que l'on croyait réservés à la conscience et à l'expérience subjective ? Le fait que les moines aient consulté ChatGPT et Gemini pour rédiger les règles morales de Gabi, une IA aidant à définir les principes éthiques d'un autre robot, illustre à quel point les frontières sont déjà brouillées. Cette ordination s'inscrit dans un contexte national particulier : la Corée du Sud est l'un des pays les plus avancés au monde en robotique et en adoption de l'IA, avec des robots déployés dans les cafés, les hôtels et les hôpitaux. L'ordre Jogye, qui administre plus de 1 700 temples à travers le pays, dispose d'une forte influence culturelle et d'une capacité réelle à faire résonner ce type d'initiative dans l'opinion publique. En choisissant d'ordonner un robot plutôt que de simplement l'exposer, les moines franchissent un pas symbolique fort : ils reconnaissent implicitement que la question de la place des machines dans la société humaine concerne désormais tous les espaces, y compris les plus sacrés. La prochaine étape, la participation de Gabi au festival des lanternes, sera un test grandeur nature de la réaction du public face à cette hybridation inédite entre tradition millénaire et technologie de pointe.

SociétéOpinion
1 source
Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes
90Le Big Data 

Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes

Boston Dynamics a publié le 5 mai 2026 une courte vidéo montrant son robot humanoïde Atlas réaliser un appui tendu renversé suivi d'un L-sit maintenu plusieurs secondes, avant de se relever sans assistance. Cette nouvelle génération d'Atlas affiche des caractéristiques techniques imposantes : 1,88 mètre de hauteur (6,2 pieds), 90 kilogrammes, 56 degrés de liberté articulaire, des rotations à 360° sur les articulations clés, une protection IP67 contre la poussière et l'eau, et une plage de fonctionnement de -20° à +40°C. Ce n'est plus un prototype de laboratoire : il s'agit d'une version conçue pour une industrialisation future, avec seulement deux types d'actionneurs distincts dans l'ensemble du corps. Le L-sit est une figure de gymnastique artistique qui exige une force abdominale extrême, un équilibre millimétré et une coordination quasi parfaite, déjà difficile pour un humain entraîné, quasi insoluble pour une machine de 90 kilos jusqu'à récemment. Ce que Boston Dynamics démontre ici, c'est la maturité de son pipeline d'apprentissage par renforcement : Atlas s'entraîne en simulation virtuelle sur des milliers d'essais, affine ses stratégies de mouvement, puis transfère ces réflexes acquis vers le robot physique. Le résultat visible est frappant, les gestes ne ressemblent plus à des séquences programmées point par point, mais à un équilibre instinctif, comme si la machine anticipait ses propres pertes de stabilité avant qu'elles ne surviennent. C'est un saut qualitatif majeur : la fluidité du mouvement est désormais comparable à celle d'un gymnaste humain de niveau intermédiaire. Derrière la démonstration spectaculaire, les enjeux sont industriels et stratégiques. Le travail sur la locomotion généraliste est piloté par le RAI Institute, dirigé par Marc Raibert, fondateur historique de Boston Dynamics, avec l'objectif de créer un système de contrôle unifié capable de gérer aussi bien la marche quotidienne que les figures acrobatiques. Hyundai, propriétaire de Boston Dynamics depuis 2021, prévoit de déployer Atlas dans sa gigantesque usine de Géorgie dès 2028, et vise à terme une production de 30 000 unités humanoïdes par an. Atlas n'est cependant pas seul sur ce marché : Figure, Agility Robotics, Tesla avec Optimus, et plusieurs startups chinoises se disputent les mêmes contrats industriels. Boston Dynamics possède probablement l'humanoïde techniquement le plus avancé, mais la transition d'une vidéo virale à une ligne de production fiable, rentable et à grande échelle reste le vrai défi, et c'est là que la compétition se jouera dans les deux prochaines années.

RobotiqueOpinion
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
91arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

RobotiqueOpinion
1 source
RLDX-1 : rapport technique
92arXiv cs.RO 

RLDX-1 : rapport technique

Un rapport technique déposé sur arXiv le 6 mai 2026 présente RLDX-1, une politique robotique généraliste conçue pour la manipulation dextre complexe. L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), intègre des modalités hétérogènes via des flux spécialisés par modalité couplés à une attention croisée inter-modale (cross-modal joint self-attention). Cette conception cible trois lacunes persistantes des modèles Vision-Langage-Action (VLA) actuels : la conscience du mouvement (motion awareness), la prise de décision avec mémoire contextuelle, et l'intégration de retours sensoriels physiques. Le système combine cette architecture avec des choix de conception système : génération synthétique de données d'entraînement pour les scénarios de manipulation rares, procédures d'apprentissage spécialisées pour un geste proche du mouvement humain, et optimisations d'inférence pour le déploiement temps réel. Sur le benchmark ALLEX, conçu pour évaluer le contrôle de robots humanoïdes à haut degré de liberté (DoF) sous des exigences fonctionnelles variées, RLDX-1 atteint un taux de succès de 86,8 % contre environ 40 % pour π0.5 (Physical Intelligence) et GR00T N1.6 (NVIDIA), soit un écart de plus de 45 points. Ces résultats, obtenus à la fois en simulation et sur des tâches en environnement réel, indiquent que l'architecture MSAT surpasse les VLA de référence sur des tâches impliquant des contacts riches, des dynamiques rapides et des contraintes sensorimotrices multiples. C'est précisément sur ce segment -- la manipulation dextre en conditions réelles, pas en démonstration contrôlée -- que le fossé entre recherche et déploiement industriel reste le plus large, et que ces chiffres méritent une validation indépendante avant d'être pris au pied de la lettre. Les VLA ont connu une accélération marquée depuis 2024, portés par RT-2 (Google DeepMind), OpenVLA, puis la série π0/π0.5 de Physical Intelligence et la famille GR00T de NVIDIA. RLDX-1 s'inscrit dans cette dynamique en cherchant à dépasser le paradigme "versatilité générale" pour cibler des capacités fonctionnelles élargies sur des robots humanoïdes haute-DoF. Aucune affiliation institutionnelle ou entreprise n'est clairement identifiée dans l'abstract publié -- le rapport reste à ce stade un preprint non revu par les pairs, sans annonce de déploiement ni calendrier de commercialisation. Les étapes naturelles suivantes incluront une validation indépendante des benchmarks et une évaluation sur des plateformes humanoïdes commerciales comme celles de Figure, Unitree ou Agility Robotics.

RobotiqueOpinion
1 source
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
93Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

RobotiqueOpinion
1 source
Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24
94Le Big Data 

Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24

Le rédacteur en chef de LeBigData.fr était l'invité d'Ali Laïdi dans l'émission "Aux avant-postes" sur France 24 pour évoquer l'essor des robots humanoïdes et leurs effets sur le marché du travail. Alors que les débats publics restent concentrés sur les IA génératives comme ChatGPT, une autre transformation s'accélère discrètement dans les laboratoires de la Silicon Valley et de Chine : des robots comme Optimus de Tesla, Atlas de Boston Dynamics, ou encore les modèles de Figure et Unitree ne sont plus de simples démonstrations technologiques. Ils sont désormais en phase de déploiement industriel réel, dans des usines et des entrepôts, avec une capacité croissante à manipuler des objets, porter des charges lourdes et s'adapter à des environnements non structurés. Le point de bascule mis en avant lors de cette intervention n'est pas technologique mais économique : le coût d'exploitation d'un robot humanoïde pourrait descendre à environ 1 dollar de l'heure d'ici quelques années. À ce niveau de prix, aucun marché du travail humain, même dans les économies à bas salaires, ne peut soutenir la comparaison. Les secteurs de la logistique, de la manutention et de la production industrielle seraient les premiers touchés, avant que l'automatisation physique ne s'étende progressivement aux environnements de bureau. Pour les entreprises, le calcul deviendra rapidement incontournable ; pour les travailleurs de ces filières, la transition risque d'être brutale et rapide. La question centrale que soulève cette mutation dépasse largement le cadre technologique : si le travail physique humain devient facultatif dans des pans entiers de l'économie, comment les États financeront-ils leurs systèmes de protection sociale, historiquement adossés aux cotisations salariales ? Comment redéfinir la valeur et la place de l'individu dans une économie massivement automatisée ? Ces enjeux, encore largement absents des agendas politiques, s'inscrivent dans un calendrier serré : les cinq prochaines années seront décisives selon l'intervenant, qui a approfondi ces questions dans un essai récemment publié, "Robots humanoïdes : vont-ils prendre votre travail ? Ce qui vous attend vraiment d'ici 2030". Pendant que les gouvernements débattent de la régulation des algorithmes, les déploiements physiques, eux, avancent à un rythme que peu d'acteurs institutionnels semblent encore mesurer.

UELa question du financement des systèmes de protection sociale français et européens, historiquement adossés aux cotisations salariales, est directement posée par la perspective d'une automatisation physique massive d'ici 2030.

RobotiqueOpinion
1 source
Top Robots Avril 2026 : Usine, sport, salon… l’IA prend le contrôle
95Le Big Data 

Top Robots Avril 2026 : Usine, sport, salon… l’IA prend le contrôle

En avril 2026, la robotique humanoïde a franchi plusieurs seuils symboliques simultanément. L'Unitree G1 a fait le tour du monde avec une vidéo montrant le robot passer sans transition de la marche au roller puis au patinage sur glace, enchaînant des saltos avant, grâce à des modules à roues interchangeables placés sous ses pieds et une IA capable d'adapter l'équilibre en temps réel. Le Toyota CUE 7 a validé un tir au panier à 24 mètres, mais l'essentiel se passe après un raté : sa vision 3D a analysé l'échec en une fraction de seconde, recalculé l'angle et la friction de l'air, puis planté le tir suivant. Sony a présenté le Project Ace, un robot pongiste équipé de neuf caméras synchronisées qui a battu des joueurs professionnels, lesquels ont tous évoqué le même désarroi : l'absence totale d'émotion et d'imprévisibilité de la machine. Enfin, lors du semi-marathon de Pékin, le robot "Lightning" sponsorisé par Honor a bouclé les 21 kilomètres en 50 minutes et 26 secondes, battant le record du monde humain à une moyenne de 25 km/h, grâce à un système de refroidissement liquide propriétaire conçu pour empêcher ses moteurs de surchauffer. Ce qui distingue avril 2026 des mois précédents, c'est que ces performances ne sont plus des démonstrations de laboratoire isolées : elles surviennent dans des environnements réels, face à des professionnels humains, et sous forme de produits en phase de déploiement. Le basculement le plus significatif est industriel : des fabricants chinois atteignent désormais des cadences de production d'un robot humanoïde par heure, transformant ce qui était un objet de recherche en bien manufacturé à grande échelle. Pour les entreprises industrielles, les prestataires logistiques et, à terme, les particuliers, la question n'est plus de savoir si ces machines seront disponibles, mais à quel prix et dans quel délai. Ces percées s'inscrivent dans une dynamique d'accélération sans précédent. Depuis 2024, les investissements dans la robotique humanoïde ont explosé, portés par la convergence entre les progrès des modèles de langage, de la vision par ordinateur et des matériaux légers à haute résistance. La Chine occupe une position dominante dans la course à la production de masse, avec des acteurs comme Unitree et des équipes issues de l'automobile comme les fondateurs de KAI, l'assistant domestique conçu par d'anciens ingénieurs de XPeng. Les États-Unis et le Japon répondent avec des approches plus spécialisées, Sony et Toyota visant la précision sportive plutôt que le volume. La prochaine étape sera l'intégration de ces robots dans des environnements non contrôlés, où l'improvisation et la robustesse face à l'inattendu détermineront les vrais gagnants de cette décennie.

UELa montée en cadence de production chinoise (un robot humanoïde par heure) va accélérer la disponibilité et comprimer les coûts pour les industriels et logisticiens européens, rendant urgente une réflexion stratégique sur l'intégration de ces machines.

💬 Le salto de l'Unitree et le semi-marathon en 50 minutes, c'est spectaculaire, bon. Mais le vrai chiffre du mois, c'est un humanoïde sorti d'usine par heure en Chine : on passe du prototype de recherche au bien manufacturé à grande échelle, et ça va s'accélérer vite. La vraie question pour les industriels européens, c'est pas encore le prix, c'est qu'on n'a pas les équipes pour intégrer ces machines.

RobotiqueActu
1 source
Familiar : ce robot veut devenir le nouveau membre de votre famille
96Le Big Data 

Familiar : ce robot veut devenir le nouveau membre de votre famille

Colin Angle, cofondateur d'iRobot et père du Roomba, a dévoilé lors de la conférence Future of Everything un robot quadrupède baptisé Familiar, développé par sa nouvelle société Familiar Machines & Magic. Contrairement aux robots industriels qui dominent le marché, Familiar est conçu exclusivement pour vivre aux côtés des humains. Doté de 23 degrés de liberté, il ne communique ni par écran ni par interface classique, mais uniquement par le mouvement, le son et le toucher. Une enveloppe tactile, des caméras et des microphones lui permettent de percevoir son environnement en temps réel. Son intelligence artificielle multimodale, combinant vision, audio, langage et mémoire, fonctionne entièrement en local, sans dépendance au cloud, pour minimiser la latence et protéger la vie privée des utilisateurs. L'entreprise, jusqu'ici restée discrète, sort officiellement de sa phase de développement confidentielle. Ce robot de compagnie incarne une rupture de philosophie dans la robotique grand public. Là où les assistants vocaux et les interfaces numériques restent abstraits, Familiar mise sur la présence physique comme vecteur de lien : selon l'entreprise, les humains réagissent différemment à une machine tangible qu'à un écran. Le robot apprend progressivement de chaque interaction, construit une mémoire des comportements de ses utilisateurs et adapte ses réponses dans la durée, une forme de personnalisation continue que les appareils classiques ne peuvent offrir. Pour les personnes isolées, les enfants ou les personnes âgées, ce type de compagnon robotique pourrait représenter une alternative concrète aux solutions numériques actuelles, en répondant à des besoins émotionnels et relationnels que les machines industrielles n'adressent pas. Le marché de la robotique est aujourd'hui massivement orienté vers la manipulation, le tri et le transport en entrepôt, un secteur en croissance rapide où s'affrontent Boston Dynamics, Figure ou Agility Robotics. Familiar Machines & Magic choisit délibérément de s'en écarter pour explorer le segment du robot domestique de compagnie, encore peu structuré mais potentiellement immense. L'équipe s'appuie sur des profils issus de Disney Research, du MIT, d'Amazon et de Boston Dynamics, ce qui lui confère une crédibilité technique solide. Colin Angle a déjà prouvé avec iRobot qu'un robot simple pouvait séduire des millions de foyers ; il cherche désormais à franchir une étape supérieure en créant des machines qui « comprennent leur environnement » plutôt que d'exécuter des tâches figées. Aucune date de commercialisation ni de prix n'ont été annoncés : la présentation de Familiar reste pour l'instant une démonstration de vision, mais elle pose les jalons d'une nouvelle catégorie de produits qui pourrait redéfinir la place du robot dans l'espace domestique.

RobotiqueOpinion
1 source
VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
97arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

RobotiqueOpinion
1 source
AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
98arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

RobotiqueActu
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
99Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

RobotiqueOpinion
1 source
ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs
100arXiv cs.RO 

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs

Un framework de contrôle humanoïde baptisé ExoActor a été publié en preprint sur arXiv (2604.27711, avril 2026) par une équipe proposant d'utiliser la génération vidéo en vue tierce comme interface unifiée de commande robotique. Le principe : à partir d'une instruction textuelle et du contexte visuel de la scène, ExoActor génère une vidéo synthétique d'exécution plausible, extrait les cinématiques humaines correspondantes, puis les transmet à un contrôleur de mouvement généraliste pour produire une séquence comportementale exécutable. Le pipeline complet, implémenté de bout en bout, est évalué sur des scénarios inédits sans collecte additionnelle de données réelles. L'intérêt de l'approche réside dans la manière dont elle attaque un verrou central du contrôle humanoïde : modéliser des comportements riches en interactions entre le robot, son environnement et les objets manipulés, tout en capturant simultanément contexte spatial, dynamiques temporelles et intention de tâche. Plutôt qu'un VLA classique mappant directement observations vers actions, ExoActor intercale une représentation vidéo comme espace latent intermédiaire, dont la capacité de généralisation provient de grands modèles vidéo pré-entraînés à l'échelle. Si les résultats de généralisation sont confirmés sur des benchmarks indépendants, cela ouvrirait une alternative sérieuse à la collecte coûteuse de données de téléopération que supportent actuellement des acteurs comme Figure AI, Agility Robotics ou 1X Technologies. Cette publication s'inscrit dans un courant cherchant à court-circuiter les démonstrations réelles via des modèles génératifs. Elle dialogue avec Pi-0 de Physical Intelligence (diffusion sur flux d'actions), GR00T N2 de NVIDIA (entraîné sur données humaines synthétiques et réelles), ainsi qu'avec UniSim et IRASim qui utilisent la synthèse vidéo comme simulateur de politique. La spécificité d'ExoActor est l'usage explicite d'une perspective exocentrique, vue tierce personne, là où d'autres approches travaillent en vue égocentrique. Les auteurs reconnaissent les limitations actuelles, notamment la qualité de l'estimation de mouvement humain à partir de vidéo synthétique. Aucun déploiement industriel ni partenariat commercial n'est annoncé : ExoActor reste à ce stade une contribution académique.

RobotiqueOpinion
1 source