Aller au contenu principal

Robotique — page 6

628 articles · page 6 sur 13

Actualités robotique et IA : robots autonomes, drones, véhicules autonomes et robots humanoïdes.

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)
251arXiv cs.RO RobotiqueOpinion

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 15 mai 2026 sur arXiv (2605.10925) PriorVLA, un framework d'adaptation pour les modèles Vision-Language-Action (VLA) destinés à la manipulation robotique généraliste. L'approche repose sur deux composants distincts : un Prior Expert gelé, utilisé en lecture seule pour conserver les représentations apprises lors du pré-entraînement, et un Adaptation Expert entraînable sur la tâche cible. Des Expert Queries extraient des priors de scène depuis le VLM pré-entraîné et des priors moteurs depuis le Prior Expert, puis les injectent dans l'Adaptation Expert pour guider la spécialisation. Résultat : PriorVLA ne met à jour que 25 % des paramètres modifiés par un fine-tuning complet. Sur le benchmark RoboTwin 2.0-Hard, il dépasse pi0.5 de 11 points ; sur LIBERO, il atteint 99,1 % de taux de succès moyen. Sur huit tâches réelles et deux plateformes embarquées, le modèle affiche 81 % de succès en distribution et 57 % hors distribution. En régime few-shot à 10 démonstrations par tâche, il atteint respectivement 48 % et 32 %, surpassant pi0.5 de 24 et 22 points. Le problème central que PriorVLA attaque est bien documenté : le fine-tuning complet d'un VLA pré-entraîné sur de grandes quantités de données tend à écraser les priors larges au profit de patterns étroits propres à la distribution d'entraînement, dégradant la généralisation hors distribution. C'est précisément le noeud du déploiement industriel, un robot doit fonctionner dans des environnements légèrement différents de ceux vus à l'entraînement. Les gains OOD de PriorVLA, conjugués à ses performances few-shot, suggèrent une voie plus efficace en données et en calcul pour adapter des fondations générales à des cellules de production spécifiques, sans réentraîner l'intégralité du modèle. PriorVLA s'inscrit dans la course à l'adaptation des VLA généralistes, un segment dominé par Physical Intelligence avec pi0 et pi0.5, et par NVIDIA avec GR00T N2 côté infrastructure. L'article utilise pi0.5 comme baseline principale, ce qui positionne PriorVLA explicitement comme une amélioration de l'état de l'art issu de Physical Intelligence. L'approche par expert gelé rappelle des techniques issues du PEFT (Parameter-Efficient Fine-Tuning) en NLP, ici transposées à l'action robotique. Les benchmarks RoboTwin 2.0 et LIBERO sont des standards académiques simulés ; les résultats sur tâches réelles, bien que prometteurs, restent limités à un contexte de laboratoire. Aucun déploiement industriel ni partenariat industriel n'est mentionné dans la publication.

UELes laboratoires de robotique européens (CEA-List, INRIA) pourraient appliquer cette méthode pour adapter des VLA généraux à leurs plateformes avec moins de données et de calcul, mais aucune entité française ou européenne n'est directement impliquée dans la publication.

1 source
Locomotion humanoïde de bout en bout apprise à partir de pixels bruts
252arXiv cs.RO 

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

Une équipe de recherche a publié sur arXiv (réf. 2602.06382v2) un framework end-to-end permettant à un robot humanoïde de naviguer sur terrain varié en s'appuyant uniquement sur des images brutes de caméras stéréo de profondeur, sans carte de terrain préchargée à l'inférence. Le système s'articule autour de deux contributions distinctes. La première est une simulation haute-fidélité du capteur stéréo qui reproduit les artefacts de matching et les incertitudes de calibration réels, comblant le fossé entre l'entraînement simulé et le déploiement physique. La seconde est une approche de distillation comportementale tenant compte de la vision : une politique enseignante, entraînée sur des cartes de hauteur parfaites ("privileged height maps"), transfère ses connaissances à une politique étudiante ne recevant que des observations de profondeur bruitées, via un alignement dans l'espace latent et des tâches auxiliaires invariantes au bruit. Pour la gestion multi-terrain, une architecture multi-critic et multi-discriminator attribue des réseaux dédiés à chaque type de surface. La méthode a été validée sur deux plateformes humanoïdes équipées de caméras stéréo différentes, couvrant des défis tels que plateformes surélevées, larges brèches et traversée bidirectionnelle de longs escaliers. Ce travail s'attaque à un verrou majeur : la quasi-totalité des politiques de locomotion par reinforcement learning contournait jusqu'ici la perception visuelle en utilisant des cartes de terrain parfaites en simulation, inexistantes sur robot réel. En intégrant explicitement les imperfections du capteur dans la boucle d'entraînement, les auteurs montrent qu'un humanoïde peut naviguer en milieu non structuré avec seulement des caméras RGB-D grand public. Pour un intégrateur ou un décideur industriel, cela réduit potentiellement la suite sensorielle nécessaire et évite le recours au LiDAR ou à la cartographie préalable. L'architecture multi-discriminator règle également la friction habituellement observée entre les objectifs conflictuels d'apprentissage sur terrains homogènes et hétérogènes, une limite connue des politiques locomotion généralistes. La locomotion humanoïde basée vision est un champ de bataille actif : Unitree (H1, G1) et Agility Robotics (Digit) privilégient encore largement la proprioception, tandis que Boston Dynamics (Atlas), Figure (Figure 03) et Physical Intelligence (Pi-0) y intègrent progressivement la vision dans leurs pipelines de contrôle. NVIDIA pousse GR00T N2 comme couche commune de synthèse de mouvement simulé. Ce papier de février 2026 s'inscrit dans une vague cherchant à rendre la locomotion bas niveau aussi robuste que les policies VLA (Vision-Language-Action) le sont pour la manipulation. La validation sur deux plateformes différentes constitue un signal positif de généralisation, mais les métriques quantitatives détaillées (taux de succès, vitesse de marche, distance franchissable) ne figurent pas dans le résumé et méritent vérification avant toute décision d'intégration opérationnelle.

RobotiquePaper
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
253arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

RobotiqueOpinion
1 source
Préhension volumétrique équivariante
254arXiv cs.RO 

Préhension volumétrique équivariante

Des chercheurs ont publié sur arXiv (identifiant 2507.18847, troisième révision) un nouveau modèle de planification de saisie robotique volumétrique intégrant des propriétés d'équivariance aux rotations autour de l'axe vertical. Le modèle repose sur une représentation tri-plan : les caractéristiques 3D de la scène sont projetées sur trois plans canoniques (horizontal, frontal, latéral). Sur le plan horizontal, les features sont équivariantes aux rotations de 90°, tandis que la somme des features issues des deux autres plans reste invariante aux réflexions induites par ces mêmes transformations. Les auteurs ont ensuite développé des adaptations équivariantes de deux planificateurs volumétriques de référence, GIGA et IGD. Pour IGD, ils reformulent le mécanisme d'attention déformable en version équivariante. Ils proposent également un modèle génératif des orientations de saisie basé sur le flow matching, une technique de modélisation générative récente. Les résultats expérimentaux, en simulation et en monde réel, montrent une réduction des coûts computationnels et mémoire, ainsi que des performances supérieures à leurs homologues non-équivariants sous contrainte temps réel. L'apport principal est d'ordre pratique pour les intégrateurs robotiques : l'équivariance permet au modèle de généraliser automatiquement une stratégie de saisie apprise depuis une orientation à toutes les rotations équivalentes, sans qu'il soit nécessaire d'augmenter massivement les données d'entraînement. Cela se traduit directement par une meilleure efficacité d'échantillonnage et une empreinte mémoire réduite, deux contraintes critiques pour le déploiement sur hardware embarqué. Le fait que les gains de performance soient maintenus sous contrainte temps réel -- et non seulement en conditions de laboratoire sans limite de calcul -- est un signal pertinent pour les ingénieurs en robotique manipulation industrielle, souvent contraints par des boucles de contrôle à fréquence fixe. GIGA et IGD représentent l'état de l'art récent en grasping volumétrique ; les intégrer plutôt que de proposer une architecture from scratch renforce la crédibilité comparative des résultats. Le champ de l'équivariance géométrique dans les réseaux de neurones connaît une activité soutenue depuis plusieurs années, notamment autour des groupes SO(3) et SE(3), mais les applications concrètes au grasping temps réel restent peu nombreuses. Ce travail s'inscrit dans une tendance à exploiter les symétries physiques pour réduire le coût d'apprentissage, une direction qui intéresse aussi bien les labos académiques que des acteurs industriels comme Boston Dynamics AI Institute ou Physical Intelligence (Pi). Le code et les vidéos de démonstration sont accessibles publiquement sur la page projet des auteurs.

RobotiquePaper
1 source
RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques
255Robotics Business Review 

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

La startup sud-coréenne RLWRLD a présenté la semaine dernière RLDX-1, un modèle de fondation conçu spécifiquement pour les mains robotiques à haut nombre de degrés de liberté (DoF). L'architecture multi-flux couvre les configurations single-arm, dual-arm et humanoïde, et intègre l'ensemble du cycle robotique : collecte de données, entraînement et déploiement. RLWRLD structure ses travaux autour d'un benchmark maison, DexBench, qui organise les défis industriels en cinq régimes de dextérité : diversité de préhension, précision spatiale, précision temporelle, précision de contact, et conscience du contexte. Pour chaque régime, un module dédié : un VLM (vision language model) fin-tuné sur des questions-réponses spatiales pour la localisation précise des contacts ; un module de mouvement extrayant des correspondances visuelles spatio-temporelles pour anticiper les objets en déplacement sur convoyeur ; un module physique qui traite couple et force tactile comme des flux séparés, permettant de prédire les transitions de contact avant qu'elles n'arrivent. Les données d'entraînement combinent téleopération synthétique et démonstrations humaines pour couvrir la manipulation en main (in-hand dexterity) inaccessible à la téléopération standard. L'enjeu est concret : les robots échouent encore sur des tâches en apparence banales comme verser du café depuis une cafetière qui s'allège, attraper un objet en mouvement sur un convoyeur, ou visser un écrou hexagonal avec des doigts. Ce "dernier kilomètre" de l'automatisation industrielle est précisément la cible de RLDX-1. L'architecture multi-flux, où chaque modalité (couple haute fréquence, frames vidéo, mémoire d'état) dispose de sa propre capacité gradient, répond à un problème réel d'optimisation : dans un transformer classique, la modalité dominante absorbe toute la capacité au détriment des autres. Cela dit, les affirmations de RLWRLD sur des performances "état de l'art" restent à valider indépendamment -- les vidéos de démonstration ne constituent pas des métriques de taux de succès en conditions industrielles réelles, et aucun cycle time chiffré n'est communiqué. RLWRLD s'inscrit dans une vague de startups cherchant à combler le fossé entre modèles d'action généralistes et déploiements industriels réels. Elle affronte des acteurs aux ressources bien supérieures : Physical Intelligence avec son modèle pi0 (fondée par d'anciens de Google et Stanford, 400 M$ levés en 2024), Figure AI avec son humanoïde Figure 03, ou encore Agility Robotics et 1X. En Europe, des acteurs comme Enchanted Tools (humanoïde Mirokaï) ou Wandercraft se positionnent sur la mobilité et l'assistance plutôt que sur la manipulation haute-dextérité, laissant ce créneau industriel quasi exclusivement aux acteurs américains et asiatiques. Aucun déploiement pilote chez un client industriel n'a été annoncé à ce stade par RLWRLD.

RobotiqueOpinion
1 source
LaST-R1 : un nouveau paradigme de raisonnement physique atteint 99,9 % de succès sur le benchmark LIBERO
256Pandaily 

LaST-R1 : un nouveau paradigme de raisonnement physique atteint 99,9 % de succès sur le benchmark LIBERO

Une équipe réunissant Zojian Power, l'Université de Pékin et l'Université chinoise de Hong Kong a publié LaST-R1 (Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning), un nouveau paradigme d'entraînement pour robots manipulateurs accepté en Spotlight à ICML 2026 (top 2,2 % des soumissions). Sur le benchmark LIBERO, référence standard d'évaluation de la manipulation robotique, le modèle atteint un taux de succès moyen de 99,9 % avec une seule trajectoire de mise en route, saturant le benchmark au point que les auteurs le considèrent désormais comme un outil discriminant insuffisant. En conditions réelles de saisie et de rotation d'objets, LaST-R1 surpasse pi0.5 de Physical Intelligence de 22,5 points de pourcentage. L'innovation centrale est l'abandon du raisonnement par chaîne de pensée en langage naturel : avant de générer une action, le modèle construit une représentation interne de la structure de la scène, des relations physiques entre objets et des dynamiques futures anticipées dans un espace latent. L'algorithme LAPO (Latent-to-Action Policy Optimization) optimise conjointement ce raisonnement et l'exécution motrice, les retours d'environnement pénalisant non seulement l'échec de l'action mais aussi la qualité du raisonnement physique préalable. Ce résultat s'attaque au verrou le plus persistant des modèles VLA (Vision-Language-Action) : la généralisation. Les architectures comme OpenVLA, pi0 ou pi0.5 tendaient à échouer dès qu'un objet était légèrement déplacé ou que les conditions d'éclairage changeaient, trahissant une fragilité structurelle liée à la mémorisation de trajectoires plutôt qu'à la compréhension des contraintes physiques. En faisant raisonner le robot sur la physique avant d'agir, LaST-R1 améliore la robustesse aux perturbations sans nécessiter de rejeu massif de données, ce qui représente potentiellement une réduction des coûts de reprogrammation lors de changements de références ou de conditions opératoires pour les intégrateurs industriels. Le terrain concurrentiel est aujourd'hui dominé par Physical Intelligence, dont les modèles pi0 et pi0.5 sont issus de la recherche académique californienne et adossés à des levées de fonds conséquentes, ainsi que par OpenVLA, fruit de consortiums universitaires américains. LaST-R1 positionne Zojian Power, startup chinoise, comme un acteur technique crédible en s'appuyant sur des collaborations académiques de premier rang à Pékin et Hong Kong. La sélection en Spotlight à ICML 2026 confère au travail une légitimité internationale, mais les expériences réelles restent limitées à des environnements contrôlés de saisie et de rotation ; aucun déploiement industriel ni feuille de route commerciale n'a été annoncé, ce qui maintient LaST-R1 dans la catégorie résultat de recherche prometteur, pas encore produit déployé.

RobotiqueOpinion
1 source
Large Video Planner permet un contrôle robotique généralisable
257arXiv cs.RO 

Large Video Planner permet un contrôle robotique généralisable

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source. L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle. Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

UELes laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

RobotiqueOpinion
1 source
BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique
258arXiv cs.RO 

BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique

Des chercheurs ont présenté en mai 2026 BioProVLA-Agent (arXiv:2605.07306), un système multi-agents conçu pour automatiser les manipulations en laboratoire biologique humide à coût maîtrisé. L'architecture combine trois modules : un agent LLM qui décompose les protocoles biologiques en sous-tâches vérifiables, un agent de vérification VLM-RAG (Vision-Language Model avec Retrieval-Augmented Generation) qui évalue l'état visuel de la scène entre chaque étape, et un agent VLA (Vision-Language-Action) qui exécute les gestes via une politique légère. Pour robustifier l'exécution face aux difficultés visuelles des labos humides (labware transparent, reflets, surexposition), les auteurs ont développé AugSmolVLA, une stratégie d'augmentation en ligne appliquée au modèle SmolVLA. Évalué sur 15 tâches atomiques (chargement de tubes, tri, vissage de bouchons, versage de liquides), 6 workflows composites et 3 tâches bimanuelles, AugSmolVLA surpasse les baselines ACT, X-VLA et SmolVLA original dans des conditions normales et de forte exposition lumineuse. Le point saillant n'est pas la performance brute mais la boucle fermée de vérification (closed-loop reasoning) : contrairement aux systèmes VLA classiques qui exécutent une instruction en one-shot, BioProVLA-Agent valide chaque sous-étape avant de progresser, ce qui adresse directement le "demo-to-reality gap" bien documenté en robotique manipulatrice. Pour les intégrateurs biotech et les COO de CRO, l'argument clé est l'accessibilité : le système s'appuie sur SmolVLA, un modèle léger open-source, plutôt que sur des LLM propriétaires massifs, réduisant la barrière à l'entrée pour les laboratoires académiques ou mid-size. Cela ouvre une voie crédible vers l'automatisation de tâches manuelles répétitives sans recourir à des équipements dédiés ou des interfaces robotiques propriétaires. Ce travail s'inscrit dans l'extension des modèles VLA, popularisés dans la robotique humanoïde (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA), vers des niches industrielles verticales comme la biologie. L'automatisation laboratoire est déjà dominée par Hamilton Robotics, Tecan et Beckman Coulter sur des workflows figés et des instruments dédiés ; BioProVLA-Agent vise le segment des labos non équipés de systèmes propriétaires. Aucun déploiement opérationnel ni partenariat industriel n'est annoncé : il s'agit d'une preuve de concept académique, évaluée uniquement sur un benchmark contrôlé, non encore validée en conditions de production réelles.

UELes laboratoires académiques et start-ups biotech européens pourraient s'appuyer sur cette approche open-source (SmolVLA) pour démarrer des projets d'automatisation de manipulations biologiques sans équipements propriétaires, mais aucun partenariat ni déploiement européen n'est annoncé.

RobotiqueOpinion
1 source
IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique
259arXiv cs.RO 

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.07496) PathPainter, un système de navigation autonome pour robots terrestres et aériens à basse altitude. Le principe central consiste à utiliser des images en vue aérienne (BEV, Bird's-Eye-View) comme prior global de l'environnement. Un modèle génératif d'images interprète une instruction en langage naturel, identifie la destination cible, puis génère automatiquement un masque de traversabilité indiquant les zones navigables. Pendant l'exécution, un module de localisation croisée (cross-view localization) aligne l'odométrie du robot sur la carte BEV pour compenser la dérive à long terme, défaut classique des systèmes odométriques conventionnels. Le système a été validé sur un drone UAV qui a complété une navigation extérieure de 160 mètres en environnement réel, en s'appuyant uniquement sur un planificateur de mouvement local standard. Ce travail illustre une tendance de fond dans la robotique : extraire la capacité de généralisation des grands modèles de fondation (ici un modèle de génération d'images) pour l'injecter dans des pipelines embarqués, sans les réentraîner de zéro. Le transfert de compréhension du monde vers la navigation incarnée (embodied navigation) est l'un des verrous techniques les plus discutés dans le secteur. PathPainter montre qu'un modèle génératif peut jouer le rôle de module de perception sémantique et de planification de haut niveau, réduisant la dépendance à des capteurs 3D coûteux ou à des cartes métriques préconstruites. La validation sur 160 mètres en extérieur reste modeste et les conditions précises du test ne sont pas détaillées dans l'abstract, ce qui invite à relativiser les conclusions avant une évaluation sur benchmarks standardisés. PathPainter s'inscrit dans l'essor des architectures VLA (Vision-Language-Action) appliquées à la navigation, un domaine où plusieurs groupes travaillent simultanément, notamment autour de modèles comme RT-2 (Google DeepMind), OpenVLA ou des travaux issus de Carnegie Mellon et Berkeley sur la navigation en langage naturel. L'usage de la vue aérienne comme prior global rappelle les approches de navigation par carte sémantique de haut niveau, mais ici la carte n'est pas fournie par un opérateur humain : elle est générée à la demande par le modèle. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks de navigation intérieure (Habitat, R2R) et une extension à des plateformes terrestres en environnement industriel ou logistique.

RobotiqueOpinion
1 source
Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026
260FrenchWeb 

Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026

En 2026, la robotique franchit un cap décisif après des années de promesses non tenues. L'accélération est portée par plusieurs dynamiques convergentes : une pénurie structurelle de main-d'œuvre dans les pays industrialisés, des chaînes logistiques sous pression depuis la pandémie, et une maturité technologique atteinte notamment grâce aux avancées en vision par ordinateur et en apprentissage par renforcement. Des acteurs comme Figure AI, Agility Robotics ou 1X Technologies multiplient les annonces de déploiements industriels à grande échelle, tandis que Boston Dynamics poursuit sa commercialisation avec Spot et Atlas. L'enjeu dépasse désormais le simple gadget d'exposition. Les robots humanoïdes et collaboratifs entrent en production réelle dans des entrepôts Amazon, des usines BMW ou des chaînes d'assemblage Tesla, remplaçant des tâches répétitives à fort risque d'accident. Pour les PME industrielles, l'abaissement du coût d'entrée, certains bras robotisés passent sous les 20 000 euros, ouvre un marché jusqu'ici réservé aux grands groupes. Les syndicats et régulateurs commencent également à s'organiser face à l'impact sur l'emploi. Ce basculement s'explique par une décennie d'investissements massifs : le marché mondial de la robotique devrait dépasser 260 milliards de dollars d'ici 2030 selon la fédération internationale IFR. La Chine, premier marché mondial, y installe chaque année plus de robots que l'ensemble de l'Europe. Les conférences sectorielles de 2026, AUTOMATICA à Munich, IREX à Tokyo, ProMat à Chicago, s'annoncent comme des rendez-vous charnières pour observer quels standards techniques et quels modèles économiques s'imposeront dans cette nouvelle phase industrielle.

UEL'Europe est directement impliquée dans cette transition industrielle, avec des déploiements chez BMW, la conférence AUTOMATICA à Munich comme rendez-vous sectoriel clé en 2026, et des syndicats et régulateurs européens qui commencent à s'organiser face à l'impact sur l'emploi.

💬 Les humanoïdes chez Amazon et Tesla, c'est le show. Ce qui va vraiment tout changer, c'est qu'un bras robotisé passe sous les 20 000 euros, parce que là, les PME industrielles entrent enfin dans la partie. Reste à voir si les intégrateurs suivent.

RobotiqueOpinion
1 source
MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”
261FrenchWeb 

MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”

Le 7 juillet 2026, Paris accueille MACHINA by RAISE, un événement dédié à la robotique et à la "physical AI" organisé au sein de l'écosystème RAISE, l'un des principaux acteurs du capital-risque technologique en France. L'initiative se distingue des grands rendez-vous sectoriels en adoptant délibérément une perspective européenne, à rebours des formats dominants encore largement pilotés depuis les États-Unis et l'Asie, notamment la Chine et le Japon qui concentrent l'essentiel des investissements mondiaux en robotique industrielle et humanoïde. La "physical AI" désigne la convergence entre l'intelligence artificielle générative et les systèmes robotiques capables d'agir dans le monde réel : bras industriels, robots humanoïdes, véhicules autonomes. Ce segment connaît une accélération spectaculaire depuis 2024, portée par les annonces de Tesla, Figure AI ou encore 1X Technologies, et représente selon plusieurs analystes le prochain front compétitif majeur après les grands modèles de langage. Pour l'Europe, l'enjeu est de ne pas reproduire le décrochage observé dans les LLMs face aux acteurs américains. RAISE, qui gère plusieurs milliards d'euros d'actifs et finance des startups deeptech françaises, positionne MACHINA comme une plateforme de rencontre entre investisseurs, industriels et chercheurs pour structurer un écosystème européen cohérent. La France dispose d'atouts réels dans ce domaine, notamment via des laboratoires comme l'INRIA et des startups en robotique chirurgicale ou logistique, mais la compétition internationale reste féroce et les besoins en capitaux considérables pour atteindre une masse critique industrielle.

UEMACHINA by RAISE 2026 à Paris vise à structurer un écosystème européen de la physical AI, offrant aux startups deeptech françaises et aux investisseurs européens une plateforme pour réduire le décrochage face aux acteurs américains et asiatiques dans la robotique humanoïde et industrielle.

💬 Paris qui se positionne sur la physical AI, c'est le genre de pari qu'on peut pas se permettre de rater. On a déjà vu ce qui se passe quand on laisse les Américains structurer l'écosystème LLM sans contre-poids européen. Reste à voir si MACHINA sera vraiment un lieu de décision ou juste un beau networking event avec des robots en démo.

RobotiqueActu
1 source
ROBOTICS SUMMIT & EXPO 2026, Boston au cœur de la nouvelle économie robotique
262FrenchWeb 

ROBOTICS SUMMIT & EXPO 2026, Boston au cœur de la nouvelle économie robotique

Le Robotics Summit & Expo 2026 se tiendra les 27 et 28 mai à Boston, confirmant la place de la ville comme capitale mondiale de la robotique. L'événement réunit cette année des acteurs issus de secteurs historiquement cloisonnés : robotique industrielle, recherche académique et automatisation logistique. Ce rassemblement annuel, devenu l'un des rendez-vous incontournables du secteur, illustre une transformation structurelle profonde de l'industrie, où les frontières entre ces univers distincts s'effacent progressivement au profit d'un écosystème intégré. Cette convergence a des implications concrètes pour les entreprises et les investisseurs. Un bras robotique industriel peut désormais intégrer des algorithmes issus de la recherche universitaire et être déployé dans un entrepôt logistique, des silos qui ne communiquaient pas il y a cinq ans. Pour les industriels, cela signifie des cycles d'innovation raccourcis et des opportunités de financement croisé entre acteurs publics, privés et académiques. Boston, avec son dense tissu de startups, de laboratoires universitaires (MIT, Harvard, Boston Dynamics) et de fonds spécialisés, cristallise mieux que nulle part ailleurs cette dynamique. La ville du Massachusetts s'est imposée comme référence mondiale en matière de robotique en grande partie grâce à l'écosystème né autour de Boston Dynamics et des programmes de recherche du MIT. Le Robotics Summit s'inscrit dans ce contexte de consolidation d'une filière en pleine maturité, portée par la demande croissante en automatisation dans l'industrie, la santé et la défense. Les éditions à venir devraient accentuer encore cette logique de convergence, à mesure que l'IA embarquée redéfinit ce qu'un robot peut faire de manière autonome.

💬 Boston, c'est vraiment le bon endroit pour observer ce qui se passe vraiment dans la robotique, pas juste les démos. Ce qui m'intéresse là-dedans, c'est la convergence industrielle/académique/logistique : ça fait des années qu'on en parle, et là ça devient une réalité de déploiement. Reste que pour les acteurs européens, regarder Boston de loin sans écosystème équivalent, ça fait un peu mal.

RobotiqueOpinion
1 source
AUTOMATE SHOW 2026, la robotique industrielle entre dans l’ère de l’usine autonome
263FrenchWeb 

AUTOMATE SHOW 2026, la robotique industrielle entre dans l’ère de l’usine autonome

L'Automate Show 2026 se tient à Chicago du 22 au 25 juin 2026, rassemblant les principaux acteurs mondiaux de la robotique industrielle et de l'automatisation. Le salon, qui accueille intégrateurs, fabricants de robots et fournisseurs d'équipements, s'impose cette année comme bien plus qu'une simple vitrine technologique : il devient l'un des observatoires de référence de la transformation profonde que vit l'industrie manufacturière sous l'effet de la convergence entre intelligence artificielle et systèmes automatisés. Ce glissement est significatif. L'usine dite "autonome" ne relève plus du concept prospectif mais d'une réalité progressive, portée par des systèmes capables de s'adapter, d'apprendre et de décider sans supervision humaine constante. Pour les industriels, cela représente un changement de paradigme opérationnel : la promesse d'une productivité accrue, d'une réduction des erreurs et d'une flexibilité inédite face aux variations de la demande. Les donneurs d'ordre comme les équipementiers réévaluent leurs chaînes de production à l'aune de ces nouvelles capacités. L'Automate Show s'inscrit dans un mouvement global de redéfinition de la place du robot dans l'industrie. Longtemps cantonné à des tâches répétitives et isolées, le robot industriel intègre désormais des couches d'IA qui élargissent son champ d'action. Les grands acteurs du secteur, des constructeurs asiatiques aux startups américaines en passant par les européens comme KUKA ou ABB, rivalisent pour proposer des solutions toujours plus intégrées, dans un contexte de pression concurrentielle mondiale et de réindustrialisation accélérée en Occident.

UELes équipementiers européens KUKA (Allemagne) et ABB (Suisse/Suède) sont en première ligne de cette transition vers l'usine autonome, dans un contexte de réindustrialisation européenne où l'adoption de ces technologies devient un enjeu de compétitivité stratégique.

💬 L'usine autonome, c'est plus une idée de salon tech. Ce qui change avec ce cycle, c'est que l'IA s'intègre dans la boucle de décision du robot, pas juste dans l'interface, et ça change vraiment la nature du système par rapport à ce qu'on avait il y a cinq ans. Reste à voir si les PME ont les moyens de suivre, parce que l'écart entre les grands équipementiers et le reste va se creuser vite.

RobotiqueOpinion
1 source
Humanoids Summit Tokyo 2026, la robotique humanoïde entre dans sa phase industrielle
264FrenchWeb 

Humanoids Summit Tokyo 2026, la robotique humanoïde entre dans sa phase industrielle

Les 28 et 29 mai 2026, Tokyo accueille le Humanoids Summit, un événement qui marque une rupture dans l'histoire de la robotique humanoïde. Pendant plus de vingt ans, ces machines à forme humaine ont occupé un espace ambigu : suffisamment impressionnantes pour alimenter les démos et les ambitions industrielles, mais trop coûteuses, trop fragiles et trop complexes pour s'imposer à grande échelle. En 2026, ce statu quo semble définitivement dépassé, et le secteur affiche une convergence de signaux annonçant une phase de commercialisation réelle. Ce basculement a des conséquences directes pour les entreprises manufacturières, la logistique et les secteurs souffrant de pénuries de main-d'oeuvre. Des robots humanoïdes capables d'opérer dans des environnements conçus pour les humains, sans adapter les infrastructures existantes, représentent une rupture opérationnelle majeure. Pour les industriels, cela ouvre la possibilité d'automatiser des tâches jugées jusqu'ici impossibles à déléguer à des machines : manipulation d'objets variés, déplacement dans des espaces contraints, travail en environnement mixte humain-robot. Ce virage industriel s'explique par la conjonction de plusieurs avancées simultanées : progrès des modèles d'apprentissage par renforcement, baisse des coûts des actionneurs et des capteurs, et afflux massif de capitaux dans le secteur. Des acteurs comme Figure, Agility Robotics, Boston Dynamics ou les concurrents chinois ont atteint des niveaux de maturité suffisants pour envisager des déploiements à grande échelle. Le Humanoids Summit Tokyo 2026 s'impose ainsi comme le point de ralliement d'une industrie qui n'est plus en phase expérimentale.

UELes industriels et logisticiens européens confrontés à des pénuries de main-d'œuvre pourraient être indirectement concernés par l'accélération commerciale des robots humanoïdes, mais aucune entreprise ou réglementation européenne n'est directement impliquée.

💬 C'est le genre de bascule dont on parle depuis dix ans, sauf que là je commence à y croire : les coûts baissent, l'apprentissage par renforcement tient la route, et le cash suit. On passe des robots-démos aux robots-entrepôts, et si tu travailles dans la logistique ou l'industrie manufacturière, tu ferais bien de suivre ça de près. Reste à voir si ça tient 8h de prod en continu, parce que c'est pas le même sport qu'une démo sur scène à Tokyo.

RobotiqueOpinion
1 source
Video Friday : l'IA confère aux mains robotiques une dextérité humaine
265IEEE Spectrum Robotics 

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

Cette semaine dans la sphère robotique, l'annonce la plus médiatisée émane de Genesis AI, qui présente GENE-26.5, décrit par la société comme "le premier cerveau IA à conférer aux robots des capacités de manipulation physique au niveau humain." Les démonstrations vidéo montrent un système cuisant un repas complet, cassant un oeuf d'une seule main, conduisant des expériences de laboratoire, réalisant du câblage de harnais électrique et jouant du piano. Aucun détail technique sur le matériel robotique utilisé, les taux de succès, ou les conditions d'environnement contrôlées n'est communiqué, ce qui invite à la prudence avant de valider ces affirmations. En parallèle, le Robotics and AI Institute publie une démonstration du quadrupède Spot de Boston Dynamics piloté par un réseau de neurones entraîné par apprentissage par renforcement combiné à une distillation multi-expert: le robot s'accroupit, saute, escalade des caisses et franchit des vides. Du côté de la NASA, les ingénieurs du Jet Propulsion Laboratory ont passé la barrière du son avec des pales de rotor de prochaine génération pour hélicoptère martien, atteignant Mach 1 dans une chambre simulant l'atmosphère de Mars, dont la densité représente environ 1 % de celle de la Terre. Jim Fan, qui dirige le groupe de recherche en autonomie incarnée chez Nvidia, affirme pour sa part que la robotique entre dans sa "phase finale" et que le plan de jeu est déjà écrit. Les affirmations de Genesis AI sur la manipulation humanoïde méritent d'être contextualisées: le secteur est parsemé d'annonces de "dextérité humaine" qui peinent à se vérifier hors conditions contrôlées. L'absence de métriques objectives, taux de succès, nombre de tentatives, variété des objets manipulés, est un signal d'alerte classique dans les communications de ce type, et le demo-to-reality gap reste la question centrale pour tout décideur B2B qui évalue ces systèmes. La prouesse NASA sur les rotors martiens est, en revanche, une avancée mesurable: franchir Mach 1 dans une atmosphère aussi ténue implique des vitesses de rotation extrêmes et des matériaux composites capables de résister à des charges aérodynamiques inédites, ouvrant la voie à des hélicoptères plus capables pour de futures missions. Quant à Atlas, le discours officiel de Boston Dynamics sur l'équilibre entre objectifs commerciaux et recherche fondamentale traduit la pression croissante que subissent les constructeurs de plateformes humanoïdes pour démontrer une rentabilité tangible après des années d'investissement massif. Genesis AI est peu connue du grand public; sa mise en avant via TechCrunch suggère une stratégie de visibilité plutôt qu'un lancement produit au sens strict. Dans l'écosystème concurrent, Physical Intelligence avec Pi-0, Figure Robotics avec le Figure 03, Agility Robotics et 1X mènent des efforts comparables sur la manipulation généraliste, tandis que Nvidia prépare le terrain pour GR00T N2 et les prochains modèles de foundation pour corps physiques. Le thème de l'Open Duck Mini, version open-source des droids BDX de Disney publiée par la communauté, rappelle que l'innovation en robotique ne se limite pas aux acteurs industriels. La communauté se retrouvera à ICRA 2026 du 1er au 5 juin à Vienne, puis à RSS 2026 du 13 au 17 juillet à Sydney, deux rendez-vous où ces avancées seront soumises à une évaluation scientifique rigoureuse, loin des vidéos de démonstration soigneusement sélectionnées.

💬 Genesis AI sort le grand jeu avec GENE-26.5, mais zéro métrique, zéro taux de réussite, ça reste une démo marketing jusqu'à preuve du contraire. Ce qui me retient vraiment dans cette actu, c'est la prouesse NASA sur les rotors martiens: Mach 1 dans 1% de densité atmosphérique, ça c'est de la physique vérifiable, pas du storytelling. Jim Fan parle de "phase finale" pour la robotique, bon, sur le papier c'est enthousiasmant, reste à voir ce que ça donne à ICRA en juin face aux pairs.

RobotiqueActu
1 source
SynapX lance SYNData : un système de collecte de données multimodal pour l'ère de l'IA incarnée
266Pandaily 

SynapX lance SYNData : un système de collecte de données multimodal pour l'ère de l'IA incarnée

SynapX a lancé SYNData, un système de collecte de données multimodales dédié à la manipulation dextre pour l'IA incarnée (embodied AI). La plateforme combine trois modules matériels : un casque Ego équipé de quatre caméras, des bracelets EMG (électromyographie) et un gant exosquelette bionique. Ensemble, ils capturent simultanément la vision à la première personne, la pose des mains, l'état de contact de la paume entière avec distribution des forces, et les signaux bioélectriques musculaires, y compris en cas d'occlusion visuelle. La brique centrale est le mécanisme Bio2Robot : un modèle IA qui transforme les signaux biologiques humains en données directement exploitables pour l'entraînement robotique, sans contraindre le comportement naturel de l'opérateur. Fondée en janvier 2026, SynapX a participé à l'AGIBOT World Challenge (track Reasoning to Action) à ICRA 2026 seulement trois semaines après sa création officielle, décrochant la 2e place mondiale et la 1re place en Chine. Le vrai goulot d'étranglement de l'IA incarnée n'est plus l'architecture des modèles ni le matériel, mais la disponibilité de données d'interaction physique de haute qualité à grande échelle. SYNData cible ce problème en capturant les gestes humains sans les modifier, là où la télé-opération classique introduit des artefacts comportementaux. La capture simultanée de la distribution des forces sur toute la paume et des signaux EMG constitue une modalité que peu de systèmes commerciaux ou open-source proposent aujourd'hui. Le résultat obtenu à ICRA 2026, même pour une entreprise de trois semaines, valide une cohérence technique sur benchmark standardisé, même si les conditions précises du challenge ne sont pas détaillées publiquement. Le marché de la collecte de données pour la robotique manipulatrice est dominé par des pipelines propriétaires : Physical Intelligence (Pi-0), Figure AI et Agility Robotics collectent leurs datasets via télé-opération directe. SynapX se distingue par une approche biosignale potentiellement plus scalable en environnement industriel réel. La société n'a pour l'instant communiqué ni sur ses clients, ni sur ses tarifs, ni sur un calendrier de déploiement commercial. Les prochaines étapes attendues sont la constitution d'un dataset propriétaire de grande envergure et, probablement, une commercialisation du système de collecte auprès de laboratoires de robotique et d'intégrateurs industriels.

💬 Le vrai problème des robots manipulateurs, c'est pas les modèles, c'est les données. SynapX a compris ça : capter les gestes humains sans les contraindre, là où la télé-opération classique introduit des artefacts que les modèles apprennent ensuite à reproduire (y compris les mauvais). La 2e place mondiale à ICRA trois semaines après la création, c'est flatteur, mais le vrai test c'est un dataset à grande échelle en conditions industrielles réelles.

RobotiqueActu
1 source
SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée
267Pandaily 

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

SynapX, une startup fondée en janvier 2026, a annoncé le lancement de SYNData, un système de collecte de données multimodale conçu pour l'apprentissage de la manipulation dextre en robotique incarnée. Le système repose sur trois modules matériels distincts : un casque Ego à quatre caméras pour la vision première personne, des bracelets EMG (électromyographie) pour capter les signaux bioélectriques musculaires, et un exosquelette-gant bionique pour enregistrer la pose de la main, l'état de contact sur toute la paume et la distribution des forces. L'architecture permet la collecte simultanée de ces modalités, y compris en conditions d'occlusion visuelle partielle. Trois semaines seulement après sa création et sa première participation en compétition, SynapX a terminé 2e au classement mondial et 1er en Chine dans la piste "Reasoning to Action" de l'AGIBOT World Challenge, organisé dans le cadre de l'ICRA 2026. L'enjeu central que SYNData prétend résoudre est le goulot d'étranglement de la donnée physique à l'échelle. Dans le développement des modèles vision-langage-action (VLA) pour la manipulation robotique, la collecte de données haute qualité demeure le facteur limitant, davantage que l'architecture des modèles ou la maturité du hardware. Le mécanisme propriétaire Bio2Robot transforme les signaux biologiques humains en données directement exploitables par des modèles de robot, avec l'objectif déclaré de ne pas perturber le comportement naturel de l'opérateur lors de la capture. Si cette promesse tient à l'échelle, cela représenterait un avantage opérationnel significatif pour les intégrateurs cherchant à industrialiser la démonstration humaine sans pipeline de labellisation coûteux. Le contexte concurrentiel est dense : des acteurs comme Physical Intelligence avec son modèle Pi-0, NVIDIA avec GR00T N2, ou encore Agibot et 1X Technologies investissent massivement dans des pipelines de données pour la manipulation généraliste. En Chine, l'écosystème est particulièrement actif, porté par des programmes de soutien public et une communauté robotique illustrée par l'AGIBOT World Challenge lui-même. SynapX se positionne en amont de la chaîne de valeur, comme fournisseur d'infrastructure de collecte plutôt que fabricant de robot. La robustesse du classement ICRA reste à confirmer en conditions de déploiement industriel réelles, le gap entre performance en compétition et application terrain demeurant un défi structurel du secteur.

💬 Le vrai goulot en robotique, c'est pas l'archi du modèle, c'est la donnée physique à l'échelle, et SynapX l'a compris avant beaucoup. Se positionner comme fournisseur d'infra de capture plutôt que fabricant de robot, c'est malin : tu fournis à tout l'écosystème sans te battre contre Physical Intelligence ou NVIDIA sur le hardware. Trois semaines d'existence, 2e mondial à l'ICRA, bon, reste à voir si les EMG et l'exo tiennent hors compétition.

RobotiqueOpinion
1 source
La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace
268Robotics Business Review 

La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace

Eric Chan, cofondateur et chief scientist de Rhoda AI, était l'invité de l'épisode 242 du Robot Report Podcast pour présenter l'approche de sa startup dans l'entraînement de robots physiques. Rhoda AI est sortie de stealth en mars 2026 et développe ce qu'elle appelle un modèle DVA (Direct Video Action), une architecture qui exploite des vidéos issues d'internet pour entraîner des politiques de contrôle robot, sans recourir massivement à la téléopération humaine. La startup a publié une démonstration d'un robot bimanuel réalisant une tâche de décantage (transfert de liquide entre contenants) piloté par une politique DVA. Chan apporte un profil académique solide: doctorat en informatique de Stanford, passé par NVIDIA, Google, NASA et WorldLabs avant de cofonder Rhoda AI. Le problème central que Chan soulève est structurel pour toute l'industrie robotique: les pipelines de collecte de données par téléopération sont coûteux, lents à passer à l'échelle, et produisent des données souvent trop spécialisées pour généraliser. Exploiter la vidéo internet, déjà disponible en quantité massive, représente une alternative potentiellement disruptive, à condition de résoudre le gap de correspondance entre observation visuelle passive et action motrice. Si l'approche DVA tient ses promesses d'apprentissage zero-shot ou few-shot, elle pourrait réduire significativement les coûts de déploiement pour les intégrateurs industriels et accélérer le passage prototype-to-production, un obstacle qui freine actuellement la majorité des projets d'IA physique. Il faut cependant noter que la démonstration publiée reste une preuve de concept en environnement contrôlé, et qu'aucun chiffre de performance en déploiement réel (taux de succès, robustesse aux variations d'environnement) n'a été communiqué à ce stade. Rhoda AI s'inscrit dans une course plus large à l'exploitation de données vidéo pour la robotique généraliste. Physical Intelligence (Pi-0), NVIDIA avec GR00T N2, et HuggingFace avec LeRobot travaillent tous sur des approches similaires de Vision-Language-Action (VLA) ou de pré-entraînement sur données hétérogènes à grande échelle. La spécificité revendiquée de Rhoda AI est de cibler directement la vidéo brute d'internet plutôt que des datasets robotiques capturés en laboratoire, ce qui la rapproche de l'approche fondatrice des LLMs appliquée au contrôle physique. La société étant très récemment sortie de stealth, les étapes annoncées -- pilotes industriels, benchmarks comparatifs avec l'état de l'art -- restent à confirmer. La prochaine échéance sectorielle visible est le Robotics Summit and Expo 2026 à Boston, où plusieurs acteurs du marché, dont Tesla et Toyota Research Institute, présenteront leurs travaux en IA physique.

💬 L'idée de base, c'est exactement ce qu'on a fait avec les LLMs : prendre les données qui existent déjà sur internet plutôt que d'en produire à la main. Appliqué à la robotique physique, ça a du sens, parce que la téléopération c'est lent, cher, et ça ne scale pas au-delà du labo. La démo en environnement contrôlé, c'est bien, mais reste à voir ce que ça donne avec de la vraie variabilité terrain, parce que c'est là que tous les autres ont calé.

RobotiqueActu
1 source
Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre
269Le Big Data 

Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre

Figure AI a publié le 8 mai 2026 une vidéo montrant deux de ses robots humanoïdes F.03 nettoyer une chambre et refaire un lit en moins de deux minutes, de manière entièrement autonome. Les deux machines ouvrent une porte, déplacent une chaise de bureau, rangent un casque audio, ferment un livre, puis s'attaquent ensemble à la confection du lit: elles saisissent la couette, la déplient et la lissent de façon synchronisée. Le tout est piloté par Helix-02, le système d'intelligence artificielle maison développé par Figure AI pour contrôler ses humanoïdes. L'entreprise affirme que c'est la première fois qu'un unique réseau neuronal gouverne plusieurs robots humanoïdes coopérant sur une tâche complexe, en combinant perception visuelle, locomotion et manipulation fine dans une seule architecture. Ce qui distingue cette démonstration des précédentes, c'est l'absence de chef d'orchestre centralisé entre les deux robots. Chacun analyse la scène via ses propres caméras et interprète les intentions de l'autre uniquement en observant ses mouvements, sans communication directe. Ils fonctionnent comme deux humains qui tendraient une housse de couette sans se concerter verbalement. Le moment le plus significatif techniquement reste la manipulation de la couette: un tissu souple change constamment de forme, ce qui oblige chaque robot à recalculer ses actions en temps réel à chaque geste de son partenaire. C'est un problème de robotique notoirement difficile, très différent de la manipulation d'objets rigides comme des boîtes ou des outils. Figure AI s'inscrit dans une course industrielle intense autour des robots humanoïdes destinés aux environnements domestiques et professionnels, un marché que convoitent aussi Tesla avec Optimus, Boston Dynamics, Agility Robotics ou encore 1X. La coopération multi-robot représente une étape charnière: un seul humanoïde ne suffit pas pour de nombreuses tâches du monde réel qui nécessitent deux paires de mains. Cependant, la prudence reste de mise face à ce type de démonstration. La pièce est soigneusement préparée avant l'exercice, les objets placés de façon optimale, et aucun élément imprévu ne vient perturber les robots pendant l'opération. La distance entre un environnement de démo contrôlé et un appartement ordinaire avec ses câbles, ses animaux de compagnie et son désordre quotidien reste considérable. Les progrès sont néanmoins réels et s'accélèrent: la question n'est plus de savoir si les humanoïdes atteindront ce niveau d'autonomie en conditions réelles, mais à quelle échéance.

RobotiqueOpinion
1 source
TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable
270arXiv cs.RO 

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, langage naturel et génération d'actions motrices, butent sur un problème connu : leur incapacité à généraliser à des scènes ou des objets non vus à l'entraînement. Une équipe de chercheurs propose TriRelVLA (arXiv:2605.05714, mai 2026), une architecture qui remplace les représentations visuelles implicites des VLA actuels par une structure relationnelle triadique explicite articulée autour de trois pôles : l'objet manipulé, la main du robot, et la tâche à accomplir. En pratique, le système construit ces représentations triadiques depuis des entrées multimodales, les organise dans un graphe relationnel via un graph transformer, puis compresse la structure dans un espace goulot (bottleneck) avant de l'injecter dans le LLM pour la prédiction d'action. Les auteurs introduisent également un jeu de données robotiques en environnement réel pour le fine-tuning et rapportent des gains en généralisation inter-scènes, inter-objets et inter-tâches. L'enjeu pour les intégrateurs industriels est direct : un système de manipulation qui échoue dès que la lumière change ou qu'une nouvelle référence produit apparaît n'est pas déployable à l'échelle. En découplant la structure relationnelle action-pertinente de l'apparence visuelle brute, TriRelVLA vise à rendre les politiques de contrôle portables entre environnements et configurations. La compression en espace bottleneck force le modèle à abstraire plutôt qu'à mémoriser, une approche qui, si elle tient à l'échelle, réduirait significativement les coûts de redéploiement dans de nouveaux ateliers ou avec de nouvelles références produit. Ce travail s'inscrit dans une vague de recherches sur les représentations structurées pour VLA, après des approches qui objectifiaient le contenu visuel sans capturer les relations pertinentes pour l'action. Les concurrents directs incluent pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), RT-2 et sa suite chez Google DeepMind, et GR00T N2 de NVIDIA, qui partagent tous le même défaut de sensibilité visuelle que TriRelVLA cherche à corriger. Ce papier reste un preprint non relu par les pairs, et les gains en généralisation annoncés n'ont pas encore été reproduits de manière indépendante. La mise à disposition du jeu de données réel représente la prochaine étape clé pour que la communauté puisse valider ces résultats.

RobotiqueOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
271arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

RobotiqueOpinion
1 source
Podcast : Colin Angle parle de la conception de robots compagnons avec Familiar Machines et Magic
272The Robot Report 

Podcast : Colin Angle parle de la conception de robots compagnons avec Familiar Machines et Magic

Colin Angle, cofondateur et ancien PDG d'iRobot, sort de la discrétion avec une nouvelle startup baptisée Familiar Machines & Magic (FM&M). La société vient de lever le voile sur son projet : développer des robots compagnons appelés "Familiars", conçus pour entretenir des relations à long terme avec leurs utilisateurs, avec une dimension d'intelligence émotionnelle embarquée. FM&M se positionne dans le segment de la "physical AI grand public". Aux côtés d'Angle, l'équipe fondatrice comprend Ira Renfrew, directrice des ressources humaines et du produit, et le Dr Chris Jones, directeur R&D, tous deux vétérans de l'industrie avec des parcours chez iRobot, Amazon et d'autres grandes plateformes technologiques. Le reste de l'équipe cumule des expertises issues de Disney Research, du MIT, de Boston Dynamics et de l'USC. Collectivement, les fondateurs revendiquent le déploiement de plus de 50 millions de robots grand public dans le monde. La société opère depuis Boston, Los Angeles et Hong Kong. Le retour de Colin Angle dans la robotique grand public constitue un signal notable pour un secteur aujourd'hui dominé par les annonces industrielles et les humanoïdes de laboratoire. FM&M mise sur un segment encore peu commercialisé : le robot domestique à vocation relationnelle, distinct du simple assistant vocal ou du robot aspirateur. L'enjeu central est de démontrer qu'une intelligence émotionnelle peut être embarquée dans un produit physique viable sur le marché de masse, hypothèse que plusieurs tentatives précédentes (Jibo, Anki Vector, Embodied Moxie) n'ont pas réussi à valider à grande échelle. Le pedigree de l'équipe apporte une crédibilité rare dans ce segment, notamment sur les questions de navigation, de robustesse produit et de capacité manufacturière. Cela dit, FM&M n'a annoncé ni produit concret, ni prix, ni calendrier de lancement : on reste strictement au stade de la sortie de stealth, sans prototype montré publiquement. Angle a quitté iRobot début 2024 après l'échec du rachat par Amazon, bloqué par la Commission européenne en janvier 2024 pour des raisons de concurrence, ce qui avait contraint l'entreprise à licencier environ 31 % de ses effectifs et Angle à démissionner. Cette rupture a libéré l'un des profils les plus expérimentés de la robotique grand public pour fonder FM&M. Dans le paysage concurrent, les robots compagnons peinent structurellement à trouver un modèle économique pérenne : Embodied a fermé ses portes, Sony perpétue Aibo sur un segment premium très niche, et des acteurs comme 1X Technologies ou Apptronik visent prioritairement l'industrie. Aucune levée de fonds n'a été communiquée publiquement par FM&M, et la formulation retenue par la société, construire "une plateforme à long terme pour la vie artificielle", suggère un horizon commercial encore lointain.

UELe blocage par la Commission européenne du rachat d'iRobot par Amazon (janvier 2024) a indirectement libéré l'équipe fondatrice pour créer FM&M, mais la société n'a annoncé aucune présence ni activité en Europe à ce stade.

Les robots sont trop nuls dans la vraie vie : ces chercheurs ont enfin trouvé la solution
273Le Big Data 

Les robots sont trop nuls dans la vraie vie : ces chercheurs ont enfin trouvé la solution

Des chercheurs des universités d'Aston et de Birmingham ont mis au point un système basé sur l'intelligence artificielle pour résoudre l'un des problèmes les plus persistants de la robotique industrielle : l'échec des robots à fonctionner correctement dans des conditions réelles après un entraînement en simulation virtuelle. Leurs travaux, soutenus par le projet REBELION dans le cadre d'un programme de UK Research and Innovation dédié au recyclage sécurisé des batteries lithium-ion, montrent des résultats probants sur des tâches concrètes impliquant des interactions physiques avec des matériaux, notamment la manipulation et la découpe. La méthode consiste à introduire automatiquement, pendant la phase d'entraînement virtuel, des variations et des perturbations dans l'environnement simulé, forçant le robot à apprendre à gérer l'instabilité et l'imprévisibilité bien avant de rencontrer le monde réel. Ce que cette approche change fondamentalement, c'est la manière dont l'industrie peut déployer des robots dans des environnements complexes ou dangereux sans accumuler des milliers d'heures de tests physiques coûteux et risqués. Le "fossé entre simulation et réalité", ce phénomène bien connu des roboticiens où une machine maîtrisant parfaitement une tâche en virtuel déraille dans le monde physique à cause du bruit des capteurs, des légères variations de position des objets ou des forces inattendues, est précisément ce que cette méthode cherche à combler. Les résultats indiquent que les robots entraînés de cette façon deviennent plus stables et plus adaptatifs, même avec très peu de données réelles supplémentaires, ce qui représente un gain considérable en termes de coûts et de délais de mise en service. Le secteur du recyclage des batteries lithium-ion constitue le cas d'usage prioritaire des chercheurs, car il implique la manipulation de cellules endommagées ou instables, rendant les tests directs particulièrement hasardeux. Mais l'ambition va bien au-delà : l'équipe espère déboucher sur des robots industriels quasi "prêts à l'emploi", capables d'être entraînés rapidement en simulation puis déployés dans un nouvel environnement avec un minimum de reconfiguration. Dans un contexte où l'automatisation industrielle est sous pression pour s'adapter à des chaînes de production plus flexibles et à des pénuries de main-d'œuvre, une telle avancée pourrait accélérer significativement l'adoption de la robotique dans des secteurs encore réticents à cause des coûts et de la complexité du déploiement. La prochaine étape sera d'étendre cette validation à des environnements industriels plus diversifiés et moins contrôlés.

UELa recherche adresse un verrou industriel directement concerné par la réglementation européenne sur les batteries : l'automatisation du recyclage des cellules lithium-ion, imposée par l'EU Battery Regulation, pourrait être accélérée grâce à cette méthode sim-to-real.

RobotiqueActu
1 source
Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain
274Interesting Engineering 

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI a dévoilé GENE-26.5, un modèle d'intelligence artificielle qualifié de "cerveau robotique" par l'entreprise, conçu pour doter les robots polyvalents d'une dextérité comparable à celle de l'être humain dans l'exécution de tâches physiques complexes. Le système repose sur une architecture VLA (vision-language-action) : il ingère des flux vidéo issus de caméras embarquées, interprète des instructions en langage naturel et génère directement des commandes motrices de bas niveau, sans pipeline modulaire intermédiaire. Selon Genesis AI, GENE-26.5 permet d'exécuter des séquences de manipulation multi-étapes (saisie, tri, assemblage, adaptation aux variations d'environnement) et fonctionnerait sur plusieurs types de plateformes matérielles sans être lié à une configuration d'actionneurs spécifique. L'entreprise n'a toutefois publié aucun benchmark indépendant ni aucune étude évaluée par les pairs : les performances annoncées reposent exclusivement sur des évaluations internes. La composition et le volume du dataset d'entraînement, probablement issu de sessions de télé-opération humaine et de simulations à grande échelle, n'ont pas été divulgués. L'enjeu de cette annonce dépasse le seul modèle. Le véritable goulot d'étranglement dans le développement des robots polyvalents n'est plus mécanique mais logiciel, et plus précisément la capacité des politiques de contrôle à transférer de la simulation au monde réel (le "sim-to-real gap"). Une architecture VLA end-to-end présente un avantage théorique : la perception et l'action étant couplées dans un même réseau de neurones, le robot peut ajuster sa trajectoire de préhension en temps réel sans attendre un module de planification séparé. Ce couplage comporte toutefois un risque structurel, les erreurs de perception se propageant directement aux commandes motrices sans point de contrôle intermédiaire. Si la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle réduirait significativement les barrières à l'entrée pour les intégrateurs et les startups robotiques qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux, déplaçant la différenciation concurrentielle vers la qualité matérielle et le fine-tuning applicatif. L'annonce intervient dans un contexte de compétition accélérée sur le marché des robots à usage général. Des acteurs américains comme Figure (Figure 03), Agility Robotics ou Apptronik, ainsi que les équipes Optimus de Tesla et les laboratoires de Physical Intelligence (Pi-0) ou de NVIDIA (GR00T N2), visent des volumes de production de l'ordre de 100 000 unités d'ici 2027. La dextérité manuelle reste l'un des problèmes les plus ouverts du domaine : la main humaine mobilise environ 27 os et plus de 30 muscles pour des gestes que les robots ne reproduisent encore qu'approximativement. Genesis AI n'a annoncé ni partenaire matériel, ni calendrier de déploiement commercial, ni conditions de licence pour GENE-26.5. L'affirmation d'une dextérité "au niveau humain" constitue une revendication forte que le secteur attendra de voir confirmer par des données de terrain réelles, hors conditions de démonstration contrôlées.

UESi la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle pourrait réduire les barrières à l'entrée pour les startups et intégrateurs robotiques européens qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux.

RobotiqueOpinion
1 source
GENESIS AI veut apprendre aux robots les gestes humains à grande échelle
275FrenchWeb 

GENESIS AI veut apprendre aux robots les gestes humains à grande échelle

Genesis AI, startup cofondée entre Paris et la Californie, ambitionne de reproduire dans le domaine physique la révolution qu'a opérée l'intelligence artificielle générative dans le logiciel. La société développe une approche destinée à enseigner aux robots des gestes humains complexes à grande échelle, en s'inspirant directement de la logique des grands modèles de langage : collecter des volumes massifs de données pour permettre une généralisation large des capacités motrices. L'objectif est de doter les systèmes robotiques d'une flexibilité comparable à celle que les LLMs ont apportée aux tâches cognitives. L'enjeu est considérable pour l'ensemble de la filière robotique industrielle et grand public. Aujourd'hui, programmer un robot pour qu'il reproduise fidèlement un geste humain reste une tâche laborieuse, spécifique à chaque contexte, et difficile à transférer d'une situation à une autre. Si Genesis AI parvient à construire un modèle généraliste du mouvement physique, cela pourrait accélérer massivement le déploiement de robots dans des environnements non structurés : entrepôts, soins à domicile, industrie manufacturière. La robotique connaît depuis 2023 une véritable effervescence autour des "foundation models" appliqués au mouvement, avec des acteurs comme Physical Intelligence (Pi), Figure AI ou Apptronik qui investissent massivement dans cette direction aux États-Unis. Genesis AI se distingue par son ancrage européen, notamment parisien, dans un secteur dominé par les capitaux américains et asiatiques. La capacité à générer et annoter des données de mouvement à grande échelle reste le verrou technologique central que la startup entend faire sauter.

UEGenesis AI, co-fondée à Paris, représente une initiative européenne dans la robotique fondationnelle, un secteur jusqu'ici dominé par les capitaux américains et asiatiques.

RobotiqueOpinion
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
276arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

RobotiqueOpinion
1 source
Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts
277arXiv cs.RO 

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des chercheurs ont publié DreamTacVLA, un framework qui dote les modèles Vision-Language-Action (VLA) d'un sens du toucher anticipatif. Ces architectures, parmi lesquelles Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, généralisent des comportements robotiques à partir de connaissances web-scale, mais restent aveugles à la physique du contact : force, texture et glissement. DreamTacVLA introduit une perception hiérarchique à trois niveaux : images tactiles haute résolution (micro-vision), caméra poignet (vision locale) et vue tierce (macro-vision), le tout aligné par une perte baptisée Hierarchical Spatial Alignment (HSA). Le système est ensuite affiné par un modèle de monde tactile prédisant des états de contact futurs, ce qui lui permet de conditionner ses décisions à la fois sur des observations réelles et sur des conséquences anticipées ; sur des benchmarks de manipulation contact-riche (vissage, pelage, textiles), il atteint jusqu'à 95 % de succès face aux baselines VLA état de l'art, appuyé par un dataset hybride combinant simulation haute-fidélité (digital twin) et expériences en monde réel. Ce résultat quantifie concrètement le "gap tactile" des VLA modernes : intégrer des signaux de contact haute résolution est discriminant pour des tâches industrielles entières, de l'assemblage de précision au conditionnement de composants déformables. Conditionner les décisions sur des conséquences tactiles anticipées, et non seulement sur des observations en temps réel, rapproche les VLA du raisonnement physique implicite des opérateurs expérimentés. Pour les intégrateurs B2B, cela laisse entrevoir une prochaine génération de politiques robotiques capables de manipulation fine sans capteurs de force-couple coûteux, à condition d'embarquer des capteurs tactiles conformes haute résolution. La démonstration reste cependant purement académique : aucun déploiement industriel ni partenariat de production n'est annoncé dans le papier. Le travail s'inscrit dans un mouvement d'enrichissement des VLA au-delà du seul canal vision-langage, aux côtés d'approches intégrant proprioception, retour de force ou audio. DreamTacVLA se distingue par l'application au domaine tactile de techniques issues des modèles de monde visuels (Dreamer, RSSM), une transposition méthodologiquement originale. L'article est à sa troisième révision arXiv (v3), signe d'une évaluation par les pairs active. Parmi les acteurs à surveiller : Sanctuary AI et Agility Robotics sur les politiques de manipulation, GelSight et Contactile sur les capteurs tactiles, et en Europe, Pollen Robotics qui explore des effecteurs sensoriellement enrichis.

UEPollen Robotics, identifié comme acteur européen explorant des effecteurs sensoriellement enrichis, est directement positionné pour intégrer ce type d'avancée tactile dans ses politiques de manipulation VLA.

RobotiqueOpinion
1 source
Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini
278VentureBeat AI 

Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini

Hugging Face, la startup new-yorkaise fondée il y a dix ans et devenue la référence mondiale pour l'hébergement de modèles d'IA open source, a lancé un App Store dédié à son robot de bureau Reachy Mini. Cette boutique d'applications compte déjà plus de 200 créations communautaires, toutes téléchargeables gratuitement par les propriétaires du robot. Le Reachy Mini, commercialisé à 299 dollars depuis juillet 2025 après le rachat de la startup Pollen Robotics par Hugging Face, s'est vendu à environ 10 000 unités en moins d'un an. Petit robot de bureau fixe, il est équipé d'une caméra, d'un haut-parleur et d'un microphone, et peut désormais être programmé sans aucune compétence en ingénierie grâce à l'agent IA maison baptisé "ML Intern". Il suffit de décrire un comportement en langage naturel, comme "faire un signe de la main quand quelqu'un dit bonjour", et l'agent génère, teste et déploie le code correspondant en quelques minutes. L'enjeu dépasse largement la nouveauté gadget : Hugging Face veut faire pour la robotique ce qu'Apple a fait pour le smartphone, c'est-à-dire rendre la création d'applications accessibles à des millions de personnes sans formation technique. Jusqu'ici, développer une application robotique nécessitait de maîtriser des SDK propriétaires, la gestion du firmware et des abstractions matérielles complexes. En éliminant cette barrière, la plateforme permet à des non-ingénieurs de livrer des logiciels robotiques fonctionnels en moins d'une heure. Le PDG Clément Delangue voit également dans ce store un terrain d'expérimentation pour les créateurs de modèles d'IA, qui pourront tester les capacités physiques de leurs nouvelles architectures directement sur un robot réel. La difficulté historique de la robotique tient au manque de données d'entraînement spécifiques : là où les grands modèles de langage ont pu s'appuyer sur des centaines de milliards de lignes de code généraliste via GitHub, les dépôts robotiques restent marginaux, avec seulement 17 000 repositories publics recensés. Hugging Face contourne ce problème en proposant une couche d'abstraction agnostique, compatible avec GPT-5.5, Claude Opus 4.6, Gemini Live, OpenAI Realtime et plusieurs autres modèles. Cette ouverture multiple crée un écosystème qui ne dépend d'aucun acteur unique. La prochaine étape sera probablement l'introduction d'options de monétisation pour les développeurs d'applications, absentes au lancement. Si la dynamique se confirme, Hugging Face pourrait transformer le Reachy Mini en plateforme de référence pour la robotique grand public, à l'heure où Boston Dynamics, Figure et d'autres misent sur des machines bien plus coûteuses et fermées.

UEHugging Face est fondée par des Français et Pollen Robotics (fabricant du Reachy Mini) est une startup française de Bordeaux, ce lancement positionne l'écosystème français en tête de la robotique grand public open source mondiale.

💬 300 dollars, 200 apps communautaires, un agent qui génère le code depuis une phrase, bon, sur le papier c'est exactement ce qu'il fallait pour que la robotique grand public décolle enfin. La comparaison avec l'App Store d'Apple est surjouée, mais les briques techniques sont là cette fois, et Pollen Robotics de Bordeaux dans la boucle c'est un beau signal pour l'écosystème français. Reste à voir si les usages dépassent le gadget de bureau dans six mois.

RobotiqueOpinion
1 source
Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique
279Robotics Business Review 

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne fondée par Zhou Xian et basée à San Carlos, a dévoilé GENE-26.5, un modèle fondamental d'IA conçu pour la manipulation robotique dextre bimanuelle. Sortie de stealth l'an dernier avec une levée de 105 millions de dollars, l'entreprise annonce avoir résolu le principal verrou du secteur : le manque de données d'entraînement pour les tâches à haute dextérité. GENE-26.5 repose sur deux composants propriétaires : un moteur de données à grande échelle et une main robotique dimensionnée à l'échelle humaine, couplée à un gant de collecte doté d'une peau électronique tactile. Ce gant permet une correspondance 1:1:1 entre la main du démonstrateur, le gant et l'effecteur robotique, facilitant le transfert direct de compétences humaines vers le robot sans recodage. Pour illustrer les capacités du modèle, Genesis AI a publié des vidéos montrant la réalisation d'une recette en 20 étapes (découpe de tomates, cassage d'oeuf à une seule main, coordination bimanuelle), la préparation d'un smoothie avec service en vol, des expériences de laboratoire impliquant pipetage et transferts de liquides, du câblage de faisceaux électriques, la résolution d'un Rubik's Cube en manipulation aérienne, la préhension simultanée de quatre objets de tailles différentes, et l'interprétation d'une composition pianistique complexe. L'enjeu industriel est direct : le câblage de faisceaux électriques, désigné par l'entreprise comme "l'une des tâches les plus difficiles en électronique", représente des milliers de postes non automatisés dans les secteurs automobile et aérospatial, faute de robots capables de gérer la variabilité géométrique des fils. Si les performances démontrées se confirment hors conditions de laboratoire contrôlées - ce que des vidéos promotionnelles soigneusement sélectionnées ne permettent pas d'établir -, cela ouvrirait un marché significatif pour les intégrateurs cherchant à robotiser des tâches à haute variabilité morphologique. L'approche de Genesis AI vise à combler l'"embodiment gap" : l'écart de morphologie entre humain et robot qui a historiquement limité l'efficacité des modèles entraînés sur données humaines. L'investissement d'Eric Schmidt, ex-PDG de Google, dans la société souligne l'intérêt stratégique croissant pour ce segment au-delà du seul milieu robotique. Genesis AI s'inscrit dans une course à la manipulation dextre où plusieurs acteurs avancent en parallèle : Physical Intelligence avec son modèle Pi-0, Sanctuary AI et les équipes manipulation de Figure (Figure 03) et Tesla (Optimus Gen 3) développent également des architectures de type VLA (Vision-Language-Action) pour le contrôle fin des effecteurs. Genesis AI se distingue en concentrant son offre exclusivement sur la main et la manipulation bimanuelles, sans plateforme humanoide annoncée à ce stade. Le communiqué reste toutefois vague sur les suites opérationnelles : aucun pilote industriel nommé, aucune timeline de déploiement ni tarification n'est communiqué, ce qui place cette annonce clairement du côté de la démonstration technologique plutôt que du produit commercialisé.

RobotiqueOpinion
1 source
Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique
280Robotics Business Review 

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne basée à Palo Alto, a présenté le 6 mai 2026 son modèle fondation GENE-26.5, conçu pour la manipulation robotique dextre bimane à vocation généraliste. La société fondée par Zhou Xian revendique des "capacités de manipulation physique au niveau humain" et annonce simultanément deux composants propriétaires : un moteur de données destiné à lever le plafond de volumétrie d'entraînement, et une main robotique à l'échelle humaine couplée à un gant de capture tactile. Ce gant, équipé d'une peau électronique à capteurs, est conçu pour assurer un mappage 1:1:1 entre le gant, la main humaine et l'effecteur robotique, réduisant la perte de fidélité dans le transfert de compétences téléopérées. Pour illustrer les capacités de GENE-26.5, Genesis AI a publié une vidéo montrant un robot réaliser une séquence de cuisson en 20 étapes (découpe de tomates, cassage d'œuf d'une main, coordination bimane), préparer un smoothie avec service en plein air, exécuter des expériences de laboratoire incluant pipetage et transfert de liquides, câbler des faisceaux électroniques, résoudre un Rubik's Cube en manipulation aérienne, saisir simultanément quatre objets de tailles variables, et jouer du piano. Genesis AI était sortie de stealth en 2025 avec 105 millions de dollars de financement. L'enjeu industriel de cette annonce se situe à deux niveaux distincts. Le moteur de données propriétaire cible le principal frein aux modèles de fondation en robotique : l'absence de données de manipulation dextre à grande échelle et haute fidélité. Le gant tactile cherche à résoudre l'embodiment gap, soit la discontinuité morphologique entre effecteur robotique et main humaine qui dégrade le transfert de compétences. Si le mappage 1:1:1 annoncé tient en production, il ouvrirait la voie à une scalabilité des données de téléopération rarement atteinte dans les systèmes actuels. Il convient toutefois de tempérer : les démonstrations présentées sont des vidéos produites et sélectionnées par l'entreprise elle-même. Aucun benchmark indépendant, aucun taux de succès en environnement industriel non contrôlé n'est communiqué. Les affirmations de performance "au niveau humain" émanent exclusivement de Genesis AI et d'Eric Schmidt, ex-PDG de Google et investisseur dans la société. Genesis AI évolue dans un segment en pleine consolidation. Sur le terrain des modèles de fondation pour la manipulation, elle affronte Physical Intelligence (Pi-0, Pi-0.5, Pi-1, San Francisco), Nvidia avec GR00T N2 lancé en novembre 2024, et Figure AI dont la plateforme Figure 03 progresse vers le déploiement industriel chez BMW. La différenciation de Genesis AI porte sur la verticalisation hardware-software : là où Physical Intelligence s'appuie sur du matériel tiers, Genesis AI contrôle à la fois le modèle et l'effecteur. L'entreprise n'a communiqué aucun calendrier de déploiement commercial précis ni partenariat industriel signé. La prochaine étape observable sera de vérifier si les performances démontrées en vidéo se traduisent en métriques reproductibles dans des environnements réels, hors conditions de studio.

RobotiqueOpinion
1 source
Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes
281Le Big Data 

Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes

Boston Dynamics a publié le 5 mai 2026 une courte vidéo montrant son robot humanoïde Atlas réaliser un appui tendu renversé suivi d'un L-sit maintenu plusieurs secondes, avant de se relever sans assistance. Cette nouvelle génération d'Atlas affiche des caractéristiques techniques imposantes : 1,88 mètre de hauteur (6,2 pieds), 90 kilogrammes, 56 degrés de liberté articulaire, des rotations à 360° sur les articulations clés, une protection IP67 contre la poussière et l'eau, et une plage de fonctionnement de -20° à +40°C. Ce n'est plus un prototype de laboratoire : il s'agit d'une version conçue pour une industrialisation future, avec seulement deux types d'actionneurs distincts dans l'ensemble du corps. Le L-sit est une figure de gymnastique artistique qui exige une force abdominale extrême, un équilibre millimétré et une coordination quasi parfaite, déjà difficile pour un humain entraîné, quasi insoluble pour une machine de 90 kilos jusqu'à récemment. Ce que Boston Dynamics démontre ici, c'est la maturité de son pipeline d'apprentissage par renforcement : Atlas s'entraîne en simulation virtuelle sur des milliers d'essais, affine ses stratégies de mouvement, puis transfère ces réflexes acquis vers le robot physique. Le résultat visible est frappant, les gestes ne ressemblent plus à des séquences programmées point par point, mais à un équilibre instinctif, comme si la machine anticipait ses propres pertes de stabilité avant qu'elles ne surviennent. C'est un saut qualitatif majeur : la fluidité du mouvement est désormais comparable à celle d'un gymnaste humain de niveau intermédiaire. Derrière la démonstration spectaculaire, les enjeux sont industriels et stratégiques. Le travail sur la locomotion généraliste est piloté par le RAI Institute, dirigé par Marc Raibert, fondateur historique de Boston Dynamics, avec l'objectif de créer un système de contrôle unifié capable de gérer aussi bien la marche quotidienne que les figures acrobatiques. Hyundai, propriétaire de Boston Dynamics depuis 2021, prévoit de déployer Atlas dans sa gigantesque usine de Géorgie dès 2028, et vise à terme une production de 30 000 unités humanoïdes par an. Atlas n'est cependant pas seul sur ce marché : Figure, Agility Robotics, Tesla avec Optimus, et plusieurs startups chinoises se disputent les mêmes contrats industriels. Boston Dynamics possède probablement l'humanoïde techniquement le plus avancé, mais la transition d'une vidéo virale à une ligne de production fiable, rentable et à grande échelle reste le vrai défi, et c'est là que la compétition se jouera dans les deux prochaines années.

RobotiqueOpinion
1 source
Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire
282arXiv cs.RO 

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Des chercheurs ont publié le 6 mai 2026 sur arXiv (référence 2605.03363) un framework de contrôle hiérarchique hybride pour la préhension dextre réactive. L'architecture sépare explicitement deux niveaux d'exécution : un planificateur haut niveau basé sur du multi-agent RL, avec deux agents spécialisés distincts (un pour le bras, un pour la main), qui génère des commandes de vitesse en espace tâche; et un contrôleur bas niveau de programmation quadratique (QP) parallélisé sur GPU, qui traduit ces commandes en vitesses articulaires tout en respectant strictement les limites cinématiques et en assurant l'évitement de collisions. Le système a été validé sur matériel réel, avec un bras 7-DOF équipé d'une main anthropomorphique 20-DOF, en démontrant un transfert zero-shot depuis la simulation vers des objets non vus pendant l'entraînement, dans des environnements non structurés. La contribution principale n'est pas seulement la performance de saisie : c'est la propriété de "zero-shot steerability", c'est-à-dire la capacité d'un opérateur à ajuster dynamiquement les marges de sécurité ou à contourner des obstacles imprévus sans réentraîner la politique. Pour un intégrateur industriel, cela change radicalement le calcul de déploiement : les approches end-to-end classiques (VLA inclus) nécessitent typiquement un fine-tuning coûteux pour chaque variation d'environnement. Ici, la séparation structurelle entre planification et exécution permet d'injecter des contraintes nouvelles au niveau du QP sans toucher à la politique RL, ce qui accélère aussi la convergence en entraînement. La robustesse aux perturbations physiques imprévues, démontrée en conditions réelles, renforce la crédibilité du pipeline sim-to-real. Ce travail s'inscrit dans un mouvement de recherche qui cherche à dépasser les architectures purement end-to-end pour la manipulation dextre, en réintroduisant des couches de contrôle classiques (QP, contraintes cinématiques) comme fondation sûre sous une politique apprise. Des approches similaires émergent chez des équipes comme Physical Intelligence (Pi-0), Figure AI (Figure 03) ou 1X Technologies, qui combinent toutes apprentissage et contrôle structuré. La prochaine étape naturelle pour ce type de framework sera la validation sur des tâches d'assemblage industriel avec variabilité de forme et de matière, ainsi que l'extension à des mains à plus haute densité de capteurs pour fermer la boucle tactile.

RobotiquePaper
1 source
Préhension indépendante du point de vue par VLM et observations partielles
283arXiv cs.RO 

Préhension indépendante du point de vue par VLM et observations partielles

Des chercheurs ont publié sur arXiv (arXiv:2603.07866v2) un pipeline de saisie robotique guidé par le langage naturel, conçu pour fonctionner dans des environnements encombrés avec des observations partielles. Le système prend en entrée une commande textuelle en langage libre, localise l'objet cible dans l'image RGB via détection open-vocabulary et segmentation d'instance, puis extrait un nuage de points centré sur l'objet à partir de données RGB-D. Pour compenser les zones occultées, le pipeline applique une compensation de profondeur par back-projection et une complétion du nuage de points en deux étapes. Il génère ensuite des candidats de saisie à 6 degrés de liberté (6-DoF), les filtre pour éviter les collisions, et sélectionne la saisie finale via des heuristiques orientées sécurité tenant compte de l'accessibilité, de la faisabilité d'approche et des dégagements. Évalué sur un robot quadrupède équipé d'un bras manipulateur, le pipeline atteint un taux de succès global de 90 % (9 saisies sur 10) contre 30 % (3/10) pour la baseline dépendante du point de vue, sur deux scénarios de table encombrés. Ce résultat est notable parce qu'il adresse l'un des blocages les plus persistants du manipulation robotique mobile: l'occultation partielle. Les robots humanoïdes et quadrupèdes déployés en entrepôt ou en atelier ne disposent jamais d'une vue complète de la scène. Passer de 30 % à 90 % de succès en conditions réelles de désordre, sans recalibrage de vue, valide l'approche de complétion de nuage de points couplée à la détection open-vocabulary: le système n'a pas besoin de connaître l'objet à l'avance, il le trouve par description textuelle. C'est exactement le type de généralisation que cherchent les intégrateurs industriels pour éviter la reprogrammation à chaque nouveau SKU. Ce travail s'inscrit dans la vague des pipelines VLA (Vision-Language-Action) qui tentent de combler le fossé entre compréhension sémantique et exécution physique fiable. Des approches concurrentes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) visent également la saisie généraliste, mais depuis des plateformes humanoïdes à deux bras. Ici, l'accent est mis sur les robots quadrupèdes à bras unique, segment moins couvert commercialement mais pertinent pour inspection et logistique en terrain semi-structuré. Les auteurs ne mentionnent pas de déploiement industriel immédiat, il s'agit d'un résultat de laboratoire; les prochaines étapes probables incluent des tests sur davantage de catégories d'objets et une évaluation hors table, en environnement ouvert.

RobotiqueOpinion
1 source
RLDX-1 : rapport technique
284arXiv cs.RO 

RLDX-1 : rapport technique

Un rapport technique déposé sur arXiv le 6 mai 2026 présente RLDX-1, une politique robotique généraliste conçue pour la manipulation dextre complexe. L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), intègre des modalités hétérogènes via des flux spécialisés par modalité couplés à une attention croisée inter-modale (cross-modal joint self-attention). Cette conception cible trois lacunes persistantes des modèles Vision-Langage-Action (VLA) actuels : la conscience du mouvement (motion awareness), la prise de décision avec mémoire contextuelle, et l'intégration de retours sensoriels physiques. Le système combine cette architecture avec des choix de conception système : génération synthétique de données d'entraînement pour les scénarios de manipulation rares, procédures d'apprentissage spécialisées pour un geste proche du mouvement humain, et optimisations d'inférence pour le déploiement temps réel. Sur le benchmark ALLEX, conçu pour évaluer le contrôle de robots humanoïdes à haut degré de liberté (DoF) sous des exigences fonctionnelles variées, RLDX-1 atteint un taux de succès de 86,8 % contre environ 40 % pour π0.5 (Physical Intelligence) et GR00T N1.6 (NVIDIA), soit un écart de plus de 45 points. Ces résultats, obtenus à la fois en simulation et sur des tâches en environnement réel, indiquent que l'architecture MSAT surpasse les VLA de référence sur des tâches impliquant des contacts riches, des dynamiques rapides et des contraintes sensorimotrices multiples. C'est précisément sur ce segment -- la manipulation dextre en conditions réelles, pas en démonstration contrôlée -- que le fossé entre recherche et déploiement industriel reste le plus large, et que ces chiffres méritent une validation indépendante avant d'être pris au pied de la lettre. Les VLA ont connu une accélération marquée depuis 2024, portés par RT-2 (Google DeepMind), OpenVLA, puis la série π0/π0.5 de Physical Intelligence et la famille GR00T de NVIDIA. RLDX-1 s'inscrit dans cette dynamique en cherchant à dépasser le paradigme "versatilité générale" pour cibler des capacités fonctionnelles élargies sur des robots humanoïdes haute-DoF. Aucune affiliation institutionnelle ou entreprise n'est clairement identifiée dans l'abstract publié -- le rapport reste à ce stade un preprint non revu par les pairs, sans annonce de déploiement ni calendrier de commercialisation. Les étapes naturelles suivantes incluront une validation indépendante des benchmarks et une évaluation sur des plateformes humanoïdes commerciales comme celles de Figure, Unitree ou Agility Robotics.

RobotiqueOpinion
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
285arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

RobotiqueOpinion
1 source
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
286Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

RobotiqueOpinion
1 source
Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24
287Le Big Data 

Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24

Le rédacteur en chef de LeBigData.fr était l'invité d'Ali Laïdi dans l'émission "Aux avant-postes" sur France 24 pour évoquer l'essor des robots humanoïdes et leurs effets sur le marché du travail. Alors que les débats publics restent concentrés sur les IA génératives comme ChatGPT, une autre transformation s'accélère discrètement dans les laboratoires de la Silicon Valley et de Chine : des robots comme Optimus de Tesla, Atlas de Boston Dynamics, ou encore les modèles de Figure et Unitree ne sont plus de simples démonstrations technologiques. Ils sont désormais en phase de déploiement industriel réel, dans des usines et des entrepôts, avec une capacité croissante à manipuler des objets, porter des charges lourdes et s'adapter à des environnements non structurés. Le point de bascule mis en avant lors de cette intervention n'est pas technologique mais économique : le coût d'exploitation d'un robot humanoïde pourrait descendre à environ 1 dollar de l'heure d'ici quelques années. À ce niveau de prix, aucun marché du travail humain, même dans les économies à bas salaires, ne peut soutenir la comparaison. Les secteurs de la logistique, de la manutention et de la production industrielle seraient les premiers touchés, avant que l'automatisation physique ne s'étende progressivement aux environnements de bureau. Pour les entreprises, le calcul deviendra rapidement incontournable ; pour les travailleurs de ces filières, la transition risque d'être brutale et rapide. La question centrale que soulève cette mutation dépasse largement le cadre technologique : si le travail physique humain devient facultatif dans des pans entiers de l'économie, comment les États financeront-ils leurs systèmes de protection sociale, historiquement adossés aux cotisations salariales ? Comment redéfinir la valeur et la place de l'individu dans une économie massivement automatisée ? Ces enjeux, encore largement absents des agendas politiques, s'inscrivent dans un calendrier serré : les cinq prochaines années seront décisives selon l'intervenant, qui a approfondi ces questions dans un essai récemment publié, "Robots humanoïdes : vont-ils prendre votre travail ? Ce qui vous attend vraiment d'ici 2030". Pendant que les gouvernements débattent de la régulation des algorithmes, les déploiements physiques, eux, avancent à un rythme que peu d'acteurs institutionnels semblent encore mesurer.

UELa question du financement des systèmes de protection sociale français et européens, historiquement adossés aux cotisations salariales, est directement posée par la perspective d'une automatisation physique massive d'ici 2030.

RobotiqueOpinion
1 source
La technologie bionique doit faire ses preuves hors des laboratoires
288IEEE Spectrum AI 

La technologie bionique doit faire ses preuves hors des laboratoires

Robert Woo est architecte et tétraplégique depuis un accident de chantier survenu en 2007. En 2011, lors de sa troisième session dans un exosquelette motorisé, il frappait déjà les esprits en parcourant une salle de rééducation avec un prototype encombrant. Quinze ans plus tard, il testait à Manhattan un nouveau modèle autoéquilibrant du fabricant français Wandercraft, capable de le maintenir debout sans béquilles. Parallèlement, les interfaces cerveau-machine, ou BCI, font l'objet d'essais cliniques permettant à des patients paralysés de contrôler des bras robotiques ou de communiquer par la pensée. C'est dans ce contexte qu'IEEE Spectrum a consacré un dossier spécial intitulé "Cyborg Tech From the Inside", accompagné de la création de la Taenzer Fellowship, une bourse de journalisme attribuée à six journalistes en situation de handicap qui couvrent les technologies qu'ils utilisent eux-mêmes au quotidien. Ce qui ressort de ces reportages, c'est l'écart persistant entre la démonstration maîtrisée et l'usage réel. Lors du test new-yorkais, une pente d'à peine quelques millimètres sur le trottoir de Park Avenue a suffi à déclencher les capteurs de sécurité du Wandercraft, immobilisant Woo sur place. Cet incident illustre un problème structurel : les technologies bioniques sont évaluées sur ce qu'elles réussissent une fois, devant une caméra, et non sur ce qu'elles tiennent sur la durée, dans des conditions ordinaires et imprévisibles. Pour les utilisateurs, le vrai critère n'est pas l'exploit ponctuel, mais la fiabilité au centième essai, dans un couloir étroit, sous la pluie, ou face à un seuil de porte. La couverture médiatique des technologies d'assistance souffre depuis des années de ce que les critiques appellent le "techno-solutionnisme" : une tendance à présenter les percées technologiques comme des solutions prêtes à l'emploi, en occultant les frictions du monde réel. Robert Woo incarne une autre approche : en testant et en documentant ces systèmes depuis 2011, ses retours ont alimenté des améliorations incrémentales concrètes. Les pionniers des BCI, eux, sont comparés aux premiers astronautes, ceux qui ont à peine effleuré l'espace avant de redescendre sur Terre. Ces utilisateurs ne sont pas de simples patients passifs ; ils fonctionnent comme bêta-testeurs et co-ingénieurs de technologies encore immatures. L'enjeu des prochaines années sera de faire passer ces systèmes de l'exploit de laboratoire à l'intégration fluide dans une vie ordinaire, avec toutes ses aspérités.

UEWandercraft, fabricant français d'exosquelettes, est au cœur de l'article, ses limites en conditions urbaines réelles soulèvent des enjeux de certification et de déploiement commercial qui concernent directement l'industrie française des technologies d'assistance.

RobotiqueOpinion
1 source
Top Robots Avril 2026 : Usine, sport, salon… l’IA prend le contrôle
289Le Big Data 

Top Robots Avril 2026 : Usine, sport, salon… l’IA prend le contrôle

En avril 2026, la robotique humanoïde a franchi plusieurs seuils symboliques simultanément. L'Unitree G1 a fait le tour du monde avec une vidéo montrant le robot passer sans transition de la marche au roller puis au patinage sur glace, enchaînant des saltos avant, grâce à des modules à roues interchangeables placés sous ses pieds et une IA capable d'adapter l'équilibre en temps réel. Le Toyota CUE 7 a validé un tir au panier à 24 mètres, mais l'essentiel se passe après un raté : sa vision 3D a analysé l'échec en une fraction de seconde, recalculé l'angle et la friction de l'air, puis planté le tir suivant. Sony a présenté le Project Ace, un robot pongiste équipé de neuf caméras synchronisées qui a battu des joueurs professionnels, lesquels ont tous évoqué le même désarroi : l'absence totale d'émotion et d'imprévisibilité de la machine. Enfin, lors du semi-marathon de Pékin, le robot "Lightning" sponsorisé par Honor a bouclé les 21 kilomètres en 50 minutes et 26 secondes, battant le record du monde humain à une moyenne de 25 km/h, grâce à un système de refroidissement liquide propriétaire conçu pour empêcher ses moteurs de surchauffer. Ce qui distingue avril 2026 des mois précédents, c'est que ces performances ne sont plus des démonstrations de laboratoire isolées : elles surviennent dans des environnements réels, face à des professionnels humains, et sous forme de produits en phase de déploiement. Le basculement le plus significatif est industriel : des fabricants chinois atteignent désormais des cadences de production d'un robot humanoïde par heure, transformant ce qui était un objet de recherche en bien manufacturé à grande échelle. Pour les entreprises industrielles, les prestataires logistiques et, à terme, les particuliers, la question n'est plus de savoir si ces machines seront disponibles, mais à quel prix et dans quel délai. Ces percées s'inscrivent dans une dynamique d'accélération sans précédent. Depuis 2024, les investissements dans la robotique humanoïde ont explosé, portés par la convergence entre les progrès des modèles de langage, de la vision par ordinateur et des matériaux légers à haute résistance. La Chine occupe une position dominante dans la course à la production de masse, avec des acteurs comme Unitree et des équipes issues de l'automobile comme les fondateurs de KAI, l'assistant domestique conçu par d'anciens ingénieurs de XPeng. Les États-Unis et le Japon répondent avec des approches plus spécialisées, Sony et Toyota visant la précision sportive plutôt que le volume. La prochaine étape sera l'intégration de ces robots dans des environnements non contrôlés, où l'improvisation et la robustesse face à l'inattendu détermineront les vrais gagnants de cette décennie.

UELa montée en cadence de production chinoise (un robot humanoïde par heure) va accélérer la disponibilité et comprimer les coûts pour les industriels et logisticiens européens, rendant urgente une réflexion stratégique sur l'intégration de ces machines.

💬 Le salto de l'Unitree et le semi-marathon en 50 minutes, c'est spectaculaire, bon. Mais le vrai chiffre du mois, c'est un humanoïde sorti d'usine par heure en Chine : on passe du prototype de recherche au bien manufacturé à grande échelle, et ça va s'accélérer vite. La vraie question pour les industriels européens, c'est pas encore le prix, c'est qu'on n'a pas les équipes pour intégrer ces machines.

RobotiqueActu
1 source
Familiar : ce robot veut devenir le nouveau membre de votre famille
290Le Big Data 

Familiar : ce robot veut devenir le nouveau membre de votre famille

Colin Angle, cofondateur d'iRobot et père du Roomba, a dévoilé lors de la conférence Future of Everything un robot quadrupède baptisé Familiar, développé par sa nouvelle société Familiar Machines & Magic. Contrairement aux robots industriels qui dominent le marché, Familiar est conçu exclusivement pour vivre aux côtés des humains. Doté de 23 degrés de liberté, il ne communique ni par écran ni par interface classique, mais uniquement par le mouvement, le son et le toucher. Une enveloppe tactile, des caméras et des microphones lui permettent de percevoir son environnement en temps réel. Son intelligence artificielle multimodale, combinant vision, audio, langage et mémoire, fonctionne entièrement en local, sans dépendance au cloud, pour minimiser la latence et protéger la vie privée des utilisateurs. L'entreprise, jusqu'ici restée discrète, sort officiellement de sa phase de développement confidentielle. Ce robot de compagnie incarne une rupture de philosophie dans la robotique grand public. Là où les assistants vocaux et les interfaces numériques restent abstraits, Familiar mise sur la présence physique comme vecteur de lien : selon l'entreprise, les humains réagissent différemment à une machine tangible qu'à un écran. Le robot apprend progressivement de chaque interaction, construit une mémoire des comportements de ses utilisateurs et adapte ses réponses dans la durée, une forme de personnalisation continue que les appareils classiques ne peuvent offrir. Pour les personnes isolées, les enfants ou les personnes âgées, ce type de compagnon robotique pourrait représenter une alternative concrète aux solutions numériques actuelles, en répondant à des besoins émotionnels et relationnels que les machines industrielles n'adressent pas. Le marché de la robotique est aujourd'hui massivement orienté vers la manipulation, le tri et le transport en entrepôt, un secteur en croissance rapide où s'affrontent Boston Dynamics, Figure ou Agility Robotics. Familiar Machines & Magic choisit délibérément de s'en écarter pour explorer le segment du robot domestique de compagnie, encore peu structuré mais potentiellement immense. L'équipe s'appuie sur des profils issus de Disney Research, du MIT, d'Amazon et de Boston Dynamics, ce qui lui confère une crédibilité technique solide. Colin Angle a déjà prouvé avec iRobot qu'un robot simple pouvait séduire des millions de foyers ; il cherche désormais à franchir une étape supérieure en créant des machines qui « comprennent leur environnement » plutôt que d'exécuter des tâches figées. Aucune date de commercialisation ni de prix n'ont été annoncés : la présentation de Familiar reste pour l'instant une démonstration de vision, mais elle pose les jalons d'une nouvelle catégorie de produits qui pourrait redéfinir la place du robot dans l'espace domestique.

RobotiqueOpinion
1 source
MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel
291arXiv cs.RO 

MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel

L'Allen Institute for Artificial Intelligence (AllenAI) a publié MolmoAct2 en mai 2025, un modèle VLA (Vision-Language-Action) entièrement open source conçu pour le déploiement robotique en conditions réelles. Cinq contributions structurent le système : MolmoER, un backbone visio-linguistique entraîné sur 3,3 millions d'exemples spécialisés en raisonnement spatial et incarné ; MolmoAct2-BimanualYAM, 720 heures de trajectoires de manipulation bimanuelle téléopérées sur plateformes à coût modéré (SO100/101 et sous-ensembles Franka DROID), le plus grand corpus bimanuel ouvert à ce jour ; OpenFAST, un tokeniseur d'actions open weight couvrant cinq types d'embodiments ; une architecture hybride couplant un expert à actions continues par flow-matching à un VLM à tokens discrets via conditionnement KV-cache couche par couche ; et MolmoThink, qui ne recalcule les tokens de profondeur géométrique que pour les zones de scène modifiées entre deux pas de temps, réduisant la latence d'inférence. Sur sept benchmarks mêlant simulation et environnements réels, MolmoAct2 surpasse Pi-0.5 de Physical Intelligence ; MolmoER dépasse GPT-5 et Gemini Robotics ER-1.5 d'Alphabet sur treize benchmarks de raisonnement incarné. Poids, code et données d'entraînement sont publiés intégralement. La publication s'attaque à quatre verrous concrets du déploiement des VLA : modèles frontier fermés, dépendance à du matériel onéreux, latence prohibitive des politiques augmentées par raisonnement, et taux de succès trop bas pour un usage fiable en production. La mise à disposition simultanée des poids, du code d'entraînement et des données complètes reste rare dans un domaine largement dominé par le propriétaire. Ces 720 heures de données sur plateformes abordables élargissent l'accès à un corpus bimanuel jusqu'ici réservé à des setups coûteux. MolmoThink représente une approche concrète pour rendre le raisonnement géométrique compatible avec les contraintes temps-réel des contrôleurs embarqués. Il faut cependant souligner que ces performances sont mesurées sur benchmarks académiques : aucun déploiement industriel validé n'est annoncé dans cet article. AllenAI, institut non lucratif cofondé par Paul Allen à Seattle, avait publié le modèle Molmo fin 2024 avant d'étendre ses travaux au contrôle robotique avec MolmoAct. MolmoAct2 s'inscrit dans un paysage VLA dominé par des acteurs fermés : Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-2) et des équipes d'OpenAI dont les développements robotiques restent non publiés. Dans l'espace open source, il concurrence OpenVLA et Octo, avec l'avantage d'un corpus bimanuel inédit et d'un tokeniseur multi-embodiments standardisé. Aucun pilote commercial n'est annoncé ; la publication cible en priorité les équipes universitaires et les startups robotiques cherchant à s'affranchir de la dépendance aux modèles propriétaires.

UELa publication intégrale des poids, du code et des données réduit la dépendance des équipes universitaires et startups européennes aux modèles VLA propriétaires, offrant un accès immédiat au plus grand corpus bimanuel ouvert à ce jour.

💬 AllenAI publie les poids, le code et les données d'entraînement, et ça reste rarissime dans un domaine où les gros jouent à guichet fermé. 720 heures de manipulation bimanuelle sur du matériel accessible, un tokeniseur multi-embodiments open weight, et des scores au-dessus de Pi-0.5 et GPT-5 sur les benchmarks incarnés : les startups robotiques qui n'ont pas le budget Physical Intelligence vont s'en saisir. Bon, aucun déploiement industriel validé pour l'instant.

RobotiqueOpinion
1 source
Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs
292arXiv cs.RO 

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

Une équipe de recherche publie sur arXiv (arXiv:2605.01191, mai 2026) Sentinel-VLA, un modèle de type vision-language-action (VLA) doté d'un module de surveillance active baptisé "sentinel". Contrairement aux VLA classiques qui exécutent des plans fixes, Sentinel-VLA déclenche un raisonnement approfondi uniquement lorsque c'est nécessaire : lors de la planification initiale d'une tâche, ou lorsque le module sentinel détecte une erreur d'exécution en temps réel. L'ensemble des données d'entraînement, couvrant 44 tâches et plus de 2,6 millions de transitions, a été généré et annoté automatiquement via un pipeline dédié. Le modèle intègre également l'algorithme SECL (Self-Evolving Continual Learning), qui lui permet d'identifier ses propres limites de compétence et de collecter automatiquement de nouvelles données pour les repousser, combiné à un adaptateur OC-Adapter (Orthogonal Continual Adapter) qui contraint les mises à jour de paramètres dans un espace orthogonal pour éviter l'oubli catastrophique. En conditions réelles (les détails des configurations expérimentales ne sont pas encore disponibles dans cette prépublication), les auteurs rapportent un gain de plus de 30 % de taux de succès par rapport à PI0, le modèle de Physical Intelligence actuellement considéré comme état de l'art. Le code, les poids et le pipeline de génération de données seront publiés en open source. Ces résultats, si confirmés par la communauté, adressent un blocage majeur dans le déploiement industriel des robots manipulateurs : l'incapacité à se corriger face à une perturbation imprévue. Les VLA existants, qu'il s'agisse de PI0, d'OpenVLA ou des dérivés de RT-2, produisent des plans d'action relativement rigides et échouent dès lors qu'une pièce est mal positionnée ou qu'un objet glisse. Le mécanisme "sentinel" propose une réponse architecturale à ce problème en dissociant l'exécution routinière (peu coûteuse en calcul) du raisonnement correctif (déclenché à la demande), ce qui est pertinent pour un déploiement sur du matériel embarqué à puissance de calcul limitée. L'approche SECL, qui combine auto-évaluation des capacités et apprentissage continu sans oubli, représente également une piste sérieuse pour les intégrateurs qui cherchent à étendre progressivement le répertoire de tâches d'un robot sans retraining complet. Il convient néanmoins de noter que le +30 % annoncé est issu d'expériences en laboratoire dont le protocole exact reste à préciser, et que les vidéos de démonstration n'ont pas encore été rendues publiques au moment de cette prépublication. Sentinel-VLA s'inscrit dans une vague de travaux cherchant à rendre les VLA robustes hors environnement contrôlé, une problématique que Physical Intelligence avait mise en lumière avec PI0 (lancé fin 2024) et que des acteurs comme Figure AI (Figure 03), Boston Dynamics ou 1X Technologies tentent également d'adresser côté hardware. Du côté recherche, les laboratoires de Carnegie Mellon, Stanford et Berkeley publient régulièrement des variantes de VLA avec des stratégies de correction différentes (chain-of-thought embarqué, boucles de feedback visuelles). La particularité de Sentinel-VLA est de traiter la correction non comme un post-processing, mais comme une composante native de l'architecture. L'open-source annoncé, code, poids et pipeline de données, pourrait accélérer l'adoption de cette approche dans la communauté académique et chez les constructeurs de robots à budget R&D contraint. Aucune date de release ni partenariat industriel n'est mentionné dans cette version préliminaire.

UELa publication open-source prévue (code, poids, pipeline de données) pourrait bénéficier aux laboratoires de robotique européens travaillant sur les VLA manipulateurs, mais aucun acteur français ou européen n'est directement impliqué dans cette prépublication.

💬 Ce qui m'intéresse ici, c'est pas le +30% (les configs restent floues, faut attendre les vidéos), c'est que la correction d'erreur est dans l'archi, pas greffée dessus après coup. Sur du matériel embarqué avec peu de calcul disponible, c'est le genre de truc qu'on attendait depuis un moment. Reste à voir si ça tient hors labo, mais l'open source annoncé va vite mettre ça à l'épreuve.

RobotiqueOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
293arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

RobotiqueOpinion
1 source
Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle
294arXiv cs.RO 

Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle

Phone2Act est un framework de téleopération publié sur arXiv (2605.01948) qui transforme un smartphone grand public en contrôleur de robot à 6 degrés de liberté (DoF) via Google ARCore. Développé sur une architecture ROS 2 modulaire, le système découple la logique de contrôle des spécificités matérielles grâce à des noeuds bridge interchangeables, ce qui permet de passer d'un cobot industriel à un bras bimanuel bas coût sans modification de code. Un composant baptisé Universal Recorder synchronise des flux RGB multi-caméras avec le retour d'état du robot, puis exporte les démonstrations directement au format LeRobot, supprimant toute étape de post-traitement. Le framework a été validé en affinant le modèle VLA GR00T-N1.5 de NVIDIA sur 130 épisodes collectés, atteignant un taux de succès de 90 % sur une tâche réelle de pick-and-place multi-étapes déployée sur un Dobot CR5 physique. Ce résultat interpelle à plusieurs titres. La collecte de données de manipulation reste l'un des goulets d'étranglement les plus coûteux du pipeline d'entraînement VLA (Vision-Language-Action) : les frameworks existants supposent du matériel spécialisé, exosquelettes, gants haptiques, SpaceMouse, représentant souvent plusieurs milliers d'euros par poste. Phone2Act abaisse ce seuil à la possession d'un smartphone compatible ARCore. Les 90 % de succès sur tâche physique réelle, obtenus avec seulement 130 épisodes, suggèrent que la qualité des données collectées est suffisante pour le fine-tuning de modèles de fondation actuels. Pour un intégrateur ou un laboratoire à budget contraint, le facteur limitant n'est plus le matériel de collecte, mais le temps opérateur. Il faut toutefois noter que les vidéos de démonstration ne couvrent qu'une seule tâche, et que 130 épisodes représente un volume très limité pour tirer des conclusions généralisables. La problématique du coût de la donnée robotique est centrale depuis l'essor des modèles VLA fin 2023. Des initiatives comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace, 2024) ont standardisé les formats de datasets sans résoudre l'acquisition terrain à bas coût. Phone2Act s'inscrit dans cette continuité en ciblant le format LeRobot comme sortie native. Face à lui, des systèmes comme ALOHA 2 (Google DeepMind/Stanford) ou les kits SO-100/SO-101 (The Robot Company) restent liés à des plateformes matérielles spécifiques. Le Dobot CR5 retenu pour les tests est un cobot industriel d'entrée de gamme, aux alentours de 15 000 euros, ce qui délimite le périmètre cible. Le code source et les données collectées n'étaient pas encore publics au moment de la soumission arXiv.

UEImpact indirect pour les laboratoires européens utilisant le format LeRobot (HuggingFace) ; aucune institution française ou européenne n'est directement impliquée dans le développement du framework.

RobotiqueOpinion
1 source
Champs de contact sémantiques pour la manipulation tactile d'outils généralisable par catégorie
295arXiv cs.RO 

Champs de contact sémantiques pour la manipulation tactile d'outils généralisable par catégorie

Des chercheurs ont publié sur arXiv (référence 2602.13833) une méthode baptisée SCFields (Semantic-Contact Fields), une représentation 3D unifiée qui fusionne sémantique visuelle et estimations de contact extrinsèque denses, incluant probabilité de contact et force appliquée. L'approche repose sur un pipeline d'apprentissage sim-to-réel en deux étapes : pré-entraînement sur de larges volumes de données simulées pour acquérir des priors de contact géométriques, suivi d'un fine-tuning sur un petit jeu de données réelles pseudo-étiquetées via heuristiques géométriques et optimisation de force. La représentation résultante, sensible aux forces, sert d'entrée dense à une politique de diffusion (diffusion policy). Les expériences valident l'approche sur trois tâches de manipulation d'outils riches en contact : grattage, dessin au crayon et épluchage. Les résultats surpassent significativement les baselines vision-seule et tactile brut sur des instances d'outils non vues lors de l'entraînement. L'enjeu central est le fossé entre planification sémantique et contrôle physique précis, un problème que les modèles VLA (Vision-Language-Action) modernes peinent à résoudre dès que la tâche exige un contact riche avec l'environnement. En encodant explicitement les forces et probabilités de contact dans une représentation 3D partageable entre instances d'une même catégorie d'outils, SCFields sort du paradigme instance-spécifique qui plafonne la plupart des politiques tactiles existantes. Le résultat le plus notable est la généralisation catégorielle : un robot entraîné sur quelques géométries d'une catégorie parvient à opérer correctement sur des outils inédits. C'est précisément le niveau de robustesse que réclament les intégrateurs industriels confrontés à la variabilité des pièces en production réelle. Le verrou sim-to-réel pour le tactile est bien documenté : les capteurs souples présentent des déformations non linéaires qui rendent le transfert direct depuis la simulation quasi-impossible. La littérature contourne généralement ce problème en collectant massivement des données réelles, ce qui reste prohibitif à l'échelle. SCFields propose un compromis efficace : grande échelle simulée pour les priors, petit volume de données réelles pour l'alignement. L'approche s'inscrit dans la convergence actuelle entre diffusion policies et représentations 3D explicites, visant à doter les robots de compétences physiques que les VLA seuls ne peuvent encore garantir de façon fiable. Aucun déploiement terrain ni partenaire industriel ne sont annoncés : il s'agit d'une validation en laboratoire, pas d'un produit commercialisé.

RobotiqueOpinion
1 source
Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots
296arXiv cs.RO 

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Des chercheurs ont publié sur arXiv (2510.03599v2) un cadre unifié d'apprentissage de politiques pour la locomotion et la manipulation robotique multi-tâches, fondé sur une représentation dite "contact-explicite". Le principe central consiste à définir chaque tâche non pas par des trajectoires articulaires spécifiques, mais par une séquence d'objectifs de contact: positions de contact souhaitées, timings, et effecteurs actifs. Une politique unique, entraînée par apprentissage par renforcement (RL) conditionné aux objectifs, prend ces plans de contact en entrée et les exécute. Le framework a été validé sur plusieurs morphologies robotiques: un quadrupède exécutant différentes allures (trot, galop, etc.), un humanoïde réalisant des locomotions bipèdes et quadrupèdes, et ce même humanoïde effectuant des tâches de manipulation bimanuelles d'objets. Dans les trois cas, une seule politique gère l'ensemble des comportements. L'intérêt industriel est direct: l'approche contact-explicite améliore significativement la généralisation à des scénarios non vus pendant l'entraînement, ce qui s'attaque frontalement au "sim-to-real gap" qui pénalise la plupart des politiques entraînées en simulation. Pour un intégrateur ou un OEM robotique, cela signifie moins de politiques spécialisées à maintenir, moins de re-training à chaque variante de tâche, et une architecture potentiellement plus robuste aux variations de terrain ou d'objet. Le fait qu'une seule politique puisse couvrir à la fois locomotion et manipulation (loco-manipulation) dans un cadre commun réduit également la complexité d'orchestration en production. Les résultats présentés semblent solides en simulation, mais les auteurs n'annoncent pas de déploiement physique à l'échelle, ce qui invite à distinguer démonstration de recherche et produit shipé. Les approches classiques traitent locomotion et manipulation comme deux sous-problèmes séparés, avec des planificateurs et des politiques dédiées. L'espace des politiques générales est aujourd'hui dominé par des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui s'appuient sur de larges datasets visuels et du transfert de fondation. La contribution ici prend le parti inverse: une représentation géométrique structurée des contacts, plus frugale en données mais plus contrainte en hypothèses. Dans le domaine de la locomotion quadrupède unifiée, les groupes de l'ETH Zurich (ANYmal), de CMU et de Berkeley restent les références. La suite logique de ces travaux serait d'interfacer la planification de contacts avec un module de compréhension du langage naturel, pour permettre des instructions de haut niveau, une direction déjà explorée par plusieurs laboratoires académiques et startups de la robotique incarnée.

RobotiquePaper
1 source
VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
297arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

RobotiqueOpinion
1 source
AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
298arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

RobotiqueActu
1 source
Le fondateur d'iRobot veut placer un compagnon robotique dans votre foyer
299IEEE Spectrum Robotics 

Le fondateur d'iRobot veut placer un compagnon robotique dans votre foyer

Colin Angle, cofondateur d'iRobot - la société derrière le Roomba et la plus grande réussite commerciale de l'histoire de la robotique domestique - a présenté le 4 mai 2026 le premier robot de sa nouvelle entreprise, Familiar Machines & Magic (FM&M). Baptisé "Familiar", ce quadrupède à 23 degrés de liberté est recouvert d'une peau tactile personnalisée, équipé d'un réseau de microphones, d'un système de vision et d'une pile d'IA embarquée reposant sur un modèle multimodal compact optimisé pour le raisonnement social, combinant en temps réel vision, audio, langage et mémoire. La forme est délibérément celle d'un ours très abstrait - ni chien, ni chat - suivant la stratégie de Paro et Pleo : l'absence de référent animal direct réduit les attentes préconçues de l'utilisateur. Destiné aux adultes, Familiar est conçu pour vivre dans un foyer, chercher le contact de ses habitants et les aider à instaurer des routines positives - limiter le temps d'écran, inciter à sortir marcher. Aucun prix ni date de commercialisation n'ont été communiqués : il s'agit à ce stade d'un premier prototype présenté publiquement. Morgan Pope, ancien chercheur chez Disney Research, figure parmi les cofondateurs clés. Ce lancement teste une hypothèse industrielle précise : deux avancées récentes rendraient aujourd'hui crédible un robot social grand public viable. Pope identifie d'abord les robots bipèdes de Disney pilotés par apprentissage par renforcement (RL), qui ont démontré qu'une locomotion adaptative sur terrain varié ne nécessite plus d'actionneurs coûteux à faible jeu mécanique. Ensuite, les modèles génératifs multimodaux, dont Pope reconnaît ouvertement qu'ils excellent à créer "l'illusion plausible d'intelligence" - suffisante pour rendre un personnage cohérent sans compréhension profonde du monde physique. Pour les intégrateurs et décideurs, c'est un signal que le ratio performance/coût du hardware embarqué et du software a franchi un seuil. Le positionnement "coaching comportemental" tente de distinguer Familiar des gadgets de compagnie en lui assignant une utilité mesurable, là où ses prédécesseurs peinaient à justifier leur prix. La catégorie des robots sociaux grand public accumule les échecs commerciaux : Jibo, Cozmo, et le premier AIBO de Sony ont illustré la difficulté à convaincre au-delà des early adopters. Angle dispose d'une crédibilité rare dans ce contexte : iRobot a vendu des dizaines de millions de Roombas avant d'être racheté par Amazon en 2022, puis revendu. FM&M se positionne face à l'AIBO actuel de Sony (quadrupède social, environ 2 900 euros), mais avec une proposition d'IA comportementale plus ambitieuse et un traitement local plutôt que cloud. Aucun acteur français ou européen n'opère directement sur ce segment résidentiel - Enchanted Tools avec Miroki cible le secteur tertiaire. Les prochaines étapes de FM&M restent non communiquées : pas de timeline de lancement, pas de partenaire distributeur annoncé.

RobotiqueOpinion
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
300Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

RobotiqueOpinion
1 source