Aller au contenu principal

Robotique — page 8

628 articles · page 8 sur 13

Actualités robotique et IA : robots autonomes, drones, véhicules autonomes et robots humanoïdes.

Des blocs reconfigurables permettent aux robots d'assembler et réutiliser des bâtiments
351Interesting Engineering RobotiqueActu

Des blocs reconfigurables permettent aux robots d'assembler et réutiliser des bâtiments

Des chercheurs du MIT ont mis au point un système de construction modulaire dans lequel des unités structurelles légères, appelées voxels, peuvent être assemblées par des robots pour former des bâtiments à l'échelle réelle. Publiés par le groupe de recherche du MIT, ces travaux présentent des blocs géométriquement conçus pour s'emboîter sans fixations permanentes, selon un principe de réseau en treillis où les forces se répartissent sur l'ensemble de l'assemblage plutôt que de se concentrer dans des colonnes ou des poutres isolées. Les robots progressent le long de la structure au fur et à mesure de sa construction, plaçant et connectant chaque unité en séquence. L'ensemble du système a été pensé autour de ce que les machines peuvent exécuter de manière fiable, une logique inverse par rapport au chantier traditionnel, où les outils robotiques sont généralement intégrés à des méthodes conçues pour des équipes humaines. L'enjeu est à la fois environnemental et économique. Les chercheurs estiment que la construction par voxels pourrait produire une empreinte carbone nettement inférieure à celle des méthodes conventionnelles, grâce à deux facteurs : une utilisation plus légère des matériaux par volume construit, et la possibilité de récupérer et de réutiliser les composants en fin de vie plutôt que de les démolir. Le béton et l'acier génèrent d'importants volumes de carbone incorporé lors de leur fabrication ; un voxel, lui, pourrait théoriquement traverser plusieurs bâtiments successifs au cours de sa durée de vie. L'automatisation modifie également l'équation du travail : en confiant les tâches de placement répétitives à des robots, le système pourrait réduire les coûts et accélérer les délais de construction pour des structures standardisées. Le projet s'inscrit dans une trajectoire de recherche plus large sur la construction numérique, l'idée que les bâtiments, à l'image de produits manufacturés, peuvent être spécifiés en unités discrètes lisibles par des machines. Mais des limites importantes subsistent à ce stade. Le système s'applique uniquement à des formes géométriquement simples ; les plans irréguliers, les structures mixtes en hauteur et l'intégration des réseaux électriques, de plomberie ou de climatisation dans les parois portantes restent hors de portée. L'imperméabilité, l'isolation thermique et acoustique ne sont pas non plus résolues par la géométrie des voxels seuls. La question de la montée en échelle vers des chantiers multi-étages en conditions réelles demeure entière. Si ces obstacles sont surmontés, l'approche pourrait transformer en profondeur la manière dont architectes et ingénieurs conçoivent et démantèlent les bâtiments de demain.

1 source
Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models
352The Information AI 

Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models

Deux nouvelles startups spécialisées dans les modèles du monde viennent d'entrer dans la course aux financements. Dream Labs, fondée ce mois d'avril 2026 par Joel Jang, ancien chercheur chez Nvidia où il travaillait sur le projet Groot, le modèle de l'entreprise dédié aux robots humanoïdes, cherche à lever plusieurs dizaines de millions de dollars pour son premier tour de table. Parallèlement, One World AI, cofondée par Sherry Yang, professeure à l'Université de New York et chercheuse principale chez Google DeepMind, vise une levée de 100 millions de dollars, selon des sources proches des négociations. Ces modèles du monde, ou "world models", sont des modèles de fondation conçus pour simuler la physique des interactions entre objets, humains et environnements. Ils sont considérés par une partie de la communauté de recherche comme une brique essentielle pour développer des robots capables d'agir de manière autonome et fiable dans le monde réel. L'intérêt des investisseurs pour ce secteur est donc directement lié aux ambitions croissantes de l'industrie robotique, qui cherche à dépasser les limites actuelles de la manipulation physique et du raisonnement spatial. Le mouvement s'inscrit dans un élan plus large initié ces douze derniers mois, durant lesquels des acteurs comme World Labs, la startup de la chercheuse en vision artificielle Fei-Fei Li, et AMI Labs, portée par le directeur scientifique de Meta Yann LeCun, ont levé chacun plusieurs milliards de dollars sur cette même thèse technologique. La convergence de profils issus de Nvidia, Google DeepMind et des grandes universités autour de ce segment précis signale que le pari sur les modèles du monde est en train de passer du stade académique à celui de la compétition industrielle à grande échelle.

RobotiqueOpinion
1 source
Kakao Mobility dévoile sa feuille de route pour la conduite autonome de niveau 4
353AI News 

Kakao Mobility dévoile sa feuille de route pour la conduite autonome de niveau 4

Kakao Mobility, la filiale mobilité du groupe sud-coréen Kakao, a présenté sa feuille de route pour le développement en interne de technologies de conduite autonome de niveau 4. Kim Jin-kyu, vice-président et directeur de la division Physical AI de l'entreprise, a détaillé ce plan lors du World IT Show 2026, organisé au centre de conférences COEX de Séoul, un événement réunissant 460 entreprises et organisations issues de 17 pays. La stratégie repose sur trois piliers technologiques : des modèles de machine learning capables de gérer la perception, la prise de décision et le contrôle du véhicule sans intervention humaine ; des architectures de véhicules avec systèmes redondants garantissant la continuité des fonctions critiques en cas de défaillance d'un composant ; et une plateforme de validation combinant simulations virtuelles et données de conduite réelle. En parallèle, Kakao Mobility développe un outil de visualisation 3D appelé Autonomous Vehicle Visualizer, qui retransmet en temps réel le champ de vision du véhicule aux passagers, ainsi qu'un centre de contrôle opérationnel 24h/24 et un système de détection d'anomalies basé sur des modèles vision-langage pour permettre une intervention à distance en cas d'urgence. La conduite autonome de niveau 4, telle que définie par la National Highway Traffic Safety Administration américaine, désigne des systèmes capables d'assurer l'intégralité de la conduite dans des zones de service délimitées sans que les passagers n'aient à surveiller la route ni reprendre le contrôle. Atteindre ce seuil représente un enjeu industriel majeur : c'est à ce stade que les services de taxi sans conducteur deviennent commercialement viables à grande échelle. Pour Kakao Mobility, qui opère déjà un service de véhicules autonomes en soirée dans le quartier de Gangnam à Séoul, cette feuille de route vise à transformer son infrastructure de mobilité existante en fondation pour des services entièrement autonomes, et à renforcer la compétitivité locale de la Corée du Sud face aux acteurs mondiaux du secteur. Le gouvernement sud-coréen a d'ailleurs positionné le World IT Show 2026 comme un signal fort de sa transition vers une économie d'IA physique, où l'intelligence artificielle s'intègre directement aux infrastructures industrielles et urbaines. Dans ce contexte, Kakao Mobility entend ne pas rester un utilisateur de technologies développées ailleurs : l'entreprise prévoit de partager avec des startups, fabricants et partenaires industriels ses jeux de données de conduite autonome à grande échelle, ses cartes haute définition et ses API de plateforme pour le covoiturage et la dispatch. Cette stratégie d'écosystème ouvert cherche à éviter que chaque acteur du secteur reconstruise seul l'infrastructure de base, tout en positionnant Kakao comme orchestrateur central du marché autonome coréen.

RobotiqueActu
1 source
L'aéroport Haneda au Japon déploie le robot humanoïde G1 de Unitree aux côtés des humains
354Interesting Engineering 

L'aéroport Haneda au Japon déploie le robot humanoïde G1 de Unitree aux côtés des humains

Japan Airlines lance en mai 2026 un programme pilote à l'aéroport de Haneda, à Tokyo, pour déployer des robots humanoïdes sur le tarmac aux côtés des équipes au sol. Le robot retenu est le G1, fabriqué par la société chinoise Unitree Robotics : il mesure 1,32 mètre, pèse 35 kilogrammes et dispose d'un design pliable facilitant son rangement. Doté de 23 degrés de liberté, d'un LiDAR 3D, d'une caméra de profondeur et d'un système de reconnaissance vocale, il peut se déplacer jusqu'à 7,2 km/h et fonctionner jusqu'à deux heures sur une seule charge de batterie. Lors d'une démonstration presse récente, le G1 a poussé des colis sur un tapis roulant près d'un appareil Japan Airlines et a interagi gestuellement avec un agent humain à proximité. Le projet est mené en partenariat avec le groupe GMO Internet et s'étendra jusqu'en 2028, avec l'objectif d'une intégration permanente à terme. Haneda dessert plus de 60 millions de passagers par an. L'enjeu est direct : alléger la charge physique des agents au sol, qui travaillent dans des environnements contraints, sous pression constante, avec des gestes répétitifs et pénibles. Japan Airlines précise que les responsabilités critiques, notamment la gestion de la sécurité, resteront sous contrôle humain. Le recours à des humanoïdes plutôt qu'à des robots conventionnels présente un avantage décisif : leur morphologie humaine leur permet de s'intégrer dans les infrastructures aéroportuaires existantes sans modifications coûteuses. La pénurie de main-d'œuvre qu'ils doivent compenser est bien réelle, et la solution robotique pourrait se généraliser si l'expérimentation valide l'opérationnalité en conditions réelles. Ce projet s'inscrit dans un contexte démographique et touristique sous haute tension au Japon. Le pays a accueilli un record de 42,7 millions de visiteurs étrangers en 2025, et plus de 7 millions lors des deux premiers mois de 2026 selon l'Organisation nationale du tourisme japonais. Parallèlement, les projections indiquent que le Japon pourrait avoir besoin de plus de 6,5 millions de travailleurs étrangers supplémentaires d'ici 2040 pour maintenir sa croissance économique, dans un contexte politique qui freine l'immigration. Les robots G1 sont entraînés via le simulateur Nvidia Isaac dans un environnement virtuel, en utilisant la capture de mouvement et l'apprentissage par renforcement, avant d'être transférés vers les machines physiques via une approche dite Sim2Real. D'autres initiatives robotiques voient le jour au Japon dans des secteurs comparables, et la réussite de ce pilote à Haneda pourrait accélérer l'adoption dans l'ensemble de l'industrie aéroportuaire mondiale.

RobotiqueActu
1 source
Les 10 meilleurs modèles d'IA physique pour robots en 2026
355MarkTechPost 

Les 10 meilleurs modèles d'IA physique pour robots en 2026

En 2026, une nouvelle génération de modèles d'IA dits "physiques" s'impose comme la colonne vertébrale de la robotique industrielle et de recherche. Ces systèmes ne génèrent pas du texte, mais des commandes motrices : ils permettent à des robots réels d'exécuter des tâches complexes dans des usines, entrepôts et laboratoires. Dix modèles dominent ce paysage. NVIDIA a lancé sa série GR00T N dès mars 2025 au GTC, avec une première version ouverte et personnalisable. La version N1.7, publiée le 17 avril 2026 en accès anticipé, est un modèle de 3 milliards de paramètres, sous licence Apache 2.0, entraîné sur 20 854 heures de vidéo égocentrique humaine couvrant plus de 20 catégories de tâches. NVIDIA a également identifié la première loi d'échelle pour la dextérité robotique : passer de 1 000 à 20 000 heures de données humaines double les performances. Google DeepMind, de son côté, a dévoilé Gemini Robotics 1.5 en septembre 2025, un modèle vision-langage-action bâti sur Gemini 2.0, et a publié le 14 avril 2026 une version Gemini Robotics-ER 1.6 améliorant le raisonnement spatial, développée en collaboration avec Boston Dynamics. Ces avancées marquent un tournant concret pour l'industrie robotique. Des partenaires comme Agile Robots, Agility Robotics, Foxlink, NEURA Robotics et Lightwheel testent ou déploient déjà ces systèmes sur du matériel réel. Les modèles permettent désormais à des robots bimanuels d'accomplir des tâches en plusieurs étapes, de lire des instruments complexes, ou d'apprendre à partir de simples vidéos d'humains au travail, sans nécessiter des mois de génération de données synthétiques. NVIDIA a réduit ce délai à environ 36 heures grâce à son architecture GR00T-Dreams. Pour les opérateurs industriels, cela signifie des cycles de déploiement raccourcis et une polyvalence accrue des robots sans reprogrammation manuelle lourde. Ce bond technologique s'inscrit dans une convergence entre les grands modèles de langage et la robotique physique, amorcée depuis 18 mois environ. Des acteurs comme Physical Intelligence, avec ses modèles pi0 et pi0.5 basés sur le flow matching, Figure AI avec Helix, ou encore OpenVLA et le SmolVLA open-source d'HuggingFace LeRobot, enrichissent un écosystème désormais très dense. NVIDIA s'appuie également sur ses Cosmos World Foundation Models pour simuler des environnements d'entraînement réalistes. La compétition s'intensifie entre approches ouvertes, comme GR00T N1.7, et systèmes propriétaires à accès restreint comme Gemini Robotics 1.5, dont la disponibilité reste limitée à des partenaires sélectionnés. Les prochains mois verront probablement les premières mises en production à grande échelle dans les lignes d'assemblage et la logistique automatisée.

UEL'entreprise allemande NEURA Robotics figure parmi les partenaires industriels testant ces systèmes, et les opérateurs européens de la logistique et de l'assemblage pourraient bénéficier de cycles de déploiement robotique significativement raccourcis.

RobotiqueActu
1 source
Vidéo : Ce robot bagagiste est la nouvelle star de l’aéroport de Japon
356Le Big Data 

Vidéo : Ce robot bagagiste est la nouvelle star de l’aéroport de Japon

Japan Airlines lancera dès le début du mois de mai 2026 une expérimentation inédite à l'aéroport international de Haneda, à Tokyo : des robots humanoïdes utilisés comme bagagistes sur le tarmac. Ces machines, conçues par l'entreprise chinoise Unitree et mesurant 1,30 mètre, seront chargées de déplacer bagages et marchandises dans l'un des hubs aériens les plus fréquentés du monde, avec plus de 60 millions de passagers accueillis chaque année. Le projet est mené en partenariat avec le groupe GMO Internet et s'étendra jusqu'en 2028 pour en évaluer pleinement l'efficacité opérationnelle. Lors d'une démonstration récente, l'un de ces robots a poussé du fret sur un tapis roulant avant d'effectuer un salut en direction d'un collègue absent, une scène aussi symbolique qu'inattendue, illustrant à la fois le potentiel et les limites actuelles de ces machines. L'enjeu est considérable pour Japan Airlines et pour le secteur aéroportuaire japonais dans son ensemble. Yoshiteru Suzuki, président de JAL Ground Service, estime que confier les tâches physiques aux robots pourrait alléger significativement la charge de travail des équipes au sol, dans un contexte où les recrutements peinent à suivre la demande. Les robots seraient capables de fonctionner en autonomie pendant deux à trois heures consécutives et pourraient, à terme, être déployés sur d'autres missions comme le nettoyage des cabines. Les missions liées à la sécurité resteraient cependant sous responsabilité humaine, une limite qui traduit la prudence du secteur face à l'intégration de ces nouvelles technologies dans un environnement aussi réglementé que l'aérien. Ce projet s'inscrit dans une crise structurelle que le Japon tente de gérer depuis plusieurs années : une population vieillissante combinée à un afflux touristique record. Le pays a accueilli 42,7 millions de visiteurs étrangers en 2025, et plus de 7 millions ont déjà été enregistrés sur les deux premiers mois de 2026, malgré un recul des touristes chinois dû à des tensions diplomatiques. Face à la contraction de sa population active, le Japon pourrait avoir besoin de plus de 6,5 millions de travailleurs étrangers supplémentaires d'ici 2040, mais le gouvernement reste soumis à des pressions politiques pour contenir l'immigration. C'est dans ce contexte que la robotisation des tâches physiques apparaît comme une réponse pragmatique, et peut-être inévitable. Tomohiro Uchida, directeur de GMO AI and Robotics, souligne que les aéroports restent encore très dépendants du travail humain malgré des infrastructures très automatisées, et c'est précisément ce paradoxe que cette expérience vise à commencer à résoudre.

RobotiqueActu
1 source
Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive
357MarkTechPost 

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action. Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU. Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

RobotiqueTuto
1 source
SPEAR-1 : dépasser les limites des démonstrations robotiques grâce à la compréhension 3D
358arXiv cs.RO 

SPEAR-1 : dépasser les limites des démonstrations robotiques grâce à la compréhension 3D

Des chercheurs de l'INSAIT ont présenté SPEAR-1, un modèle de fondation robotique capable de surpasser ou d'égaler des systèmes de pointe comme π0-FAST et π0.5 tout en utilisant vingt fois moins de démonstrations robotiques. Entraîné sur environ 45 millions de séquences vidéo issues de 24 jeux de données Open X-Embodiment, le modèle repose sur SPEAR-VLM, un modèle vision-langage doté d'une compréhension 3D capable de déduire les coordonnées spatiales d'objets à partir d'une simple image 2D. Les poids du modèle ainsi que les données annotées en 3D sont disponibles en accès libre sur spear.insait.ai. L'enjeu central de SPEAR-1 est la généralisation : là où la plupart des modèles robotiques peinent à s'adapter à de nouveaux environnements ou de nouvelles tâches une fois leur entraînement terminé, SPEAR-1 y parvient avec une fraction des données habituellement nécessaires. Cette efficacité représente un gain considérable pour les équipes de recherche et les industriels : collecter des démonstrations robotiques est coûteux, lent et difficile à mettre à l'échelle. En substituant une partie de ces données par des images ordinaires annotées en 3D, les chercheurs ouvrent une voie beaucoup moins contraignante vers des robots polyvalents. Le verrou que SPEAR-1 tente de lever est bien connu dans le domaine : les grands modèles vision-langage sur lesquels reposent aujourd'hui la plupart des systèmes robotiques ont été pré-entraînés sur des données 2D issues d'internet, sans capacité de raisonnement spatial en trois dimensions, pourtant indispensable pour agir dans le monde physique. Plutôt que de combler ce fossé en accumulant massivement des données robotiques, SPEAR-1 enrichit des images non robotiques avec des annotations 3D pour doter le modèle de base de cette compétence manquante. Cette approche s'inscrit dans une course mondiale à la robotique généraliste, où des acteurs comme Physical Intelligence, Google DeepMind et Figure AI investissent massivement pour créer des robots capables de s'adapter à des tâches variées sans reprogrammation.

UEINSAIT, institution européenne basée en Bulgarie, publie SPEAR-1 en open source, donnant aux chercheurs et industriels européens un accès direct à un modèle robotique de pointe nécessitant vingt fois moins de démonstrations que les systèmes concurrents.

💬 Le vrai problème de la robotique généraliste, c'est pas les modèles, c'est la data : collecter des démos robot coûte cher, ça prend du temps, et ça ne se met pas à l'échelle. SPEAR-1 contourne ça en substituant une bonne partie de ces démos par des images ordinaires annotées en 3D, et si ça tient hors du labo, c'est une avancée sérieuse pour des équipes qui n'ont pas les moyens de Physical Intelligence. Open source en plus, depuis l'Europe.

RobotiquePaper
1 source
Détection en temps réel des andains par capteurs embarqués sur tracteur pour un suivi automatisé
359arXiv cs.RO 

Détection en temps réel des andains par capteurs embarqués sur tracteur pour un suivi automatisé

Des chercheurs ont publié un système open source de détection en temps réel des andains de fourrage pour tracteurs autonomes, accompagné d'un jeu de données multimodal inédit. L'approche combine vision stéréoscopique et LiDAR montés sur tracteur, capturés lors d'opérations réelles de mise en balles. Les données synchronisées incluent des trajectoires GNSS et sont partiellement disponibles sous forme de bags ROS2 Humble sur la plateforme Zenodo, avec des données supplémentaires accessibles sur demande. L'algorithme de suivi par centroïde tourne à plus de 20 Hz sur un module embarqué NVIDIA Jetson AGX Orin, ce qui garantit une réactivité suffisante pour guider un engin agricole en conditions réelles. Sur la plage critique de guidage de 4 à 10 mètres, les mesures de profondeur par stéréovision et par LiDAR affichent une corrélation de 0,965 ± 0,021, un niveau de concordance remarquable. Ce résultat démontre que des capteurs stéréo peu coûteux peuvent rivaliser avec les performances du LiDAR pour cette tâche spécifique, ouvrant la voie à des systèmes d'automatisation agricole nettement moins onéreux. La pipeline complète, sans recours au GPS, est publiée en open source sous ROS 2 et constitue un référentiel reproductible pour la communauté de recherche en récolte autonome de fourrage. Le secteur de la récolte fourragère automatisée est aujourd'hui dominé par des solutions propriétaires dont les algorithmes de détection d'andains restent opaques, ce qui freine la recherche indépendante et l'innovation ouverte. Ce travail répond directement à ce verrou en fournissant à la fois les données brutes et le code nécessaires pour reproduire et améliorer les résultats. L'agriculture de précision est un marché en pleine expansion, porté par la pénurie de main-d'œuvre agricole et la pression sur la productivité ; disposer de briques technologiques ouvertes pour l'automatisation des tracteurs pourrait accélérer l'adoption dans les exploitations de taille intermédiaire qui ne peuvent pas se permettre des solutions constructeurs à prix élevé.

UECette contribution open source sur l'automatisation des tracteurs pourrait bénéficier aux exploitations agricoles françaises et européennes confrontées à la pénurie de main-d'œuvre, en offrant des briques technologiques reproductibles moins coûteuses que les solutions propriétaires des constructeurs.

RobotiquePaper
1 source
Planification multi-robots en millisecondes : primitives accélérées par vecteurs pour la planification par échantillonnage
360arXiv cs.RO 

Planification multi-robots en millisecondes : primitives accélérées par vecteurs pour la planification par échantillonnage

Une équipe de chercheurs a publié une avancée significative dans la planification de mouvements pour systèmes multi-robots, en étendant le cadre VAMP (Vector-Accelerated Motion Planning) au domaine de la planification de mouvements multi-robots (MRMP). Leurs travaux, présentés dans l'article arXiv:2604.23960, introduisent deux nouvelles primitives algorithmiques baptisées MotVal (multi-robot Motion Validation) et FFC (FindFirstConflict), qui exploitent le parallélisme SIMD, une technique d'exécution simultanée d'opérations identiques sur plusieurs données, pour accélérer massivement les calculs. Les résultats sont frappants : sur les tests de validation de mouvements purs, le gain de vitesse atteint plus de 1 100 fois par rapport aux approches conventionnelles, et les temps de planification globaux progressent d'un facteur supérieur à 850 dans de nombreux scénarios, permettant de générer des trajectoires coordonnées en quelques millisecondes. Ces performances changent concrètement ce qu'il est possible d'envisager pour les systèmes robotiques en temps réel. Aujourd'hui, la planification de trajectoires pour plusieurs robots simultanément constitue un goulot d'étranglement majeur : les délais de calcul empêchent les robots d'opérer de façon fluide et réactive, notamment dans des environnements dynamiques comme les entrepôts automatisés, les lignes de production ou la chirurgie assistée. Réduire ces délais à l'échelle de la milliseconde ouvre la voie à des flottes de robots capables de se coordonner en temps quasi réel, sans compromettre la sécurité ni la précision. Les gains ont été observés sur des configurations variées, incluant des bras manipulateurs, des robots à corps rigide et des équipes hétérogènes combinant différents types de machines. La planification de mouvements multi-robots est un problème combinatoire notoirement difficile, dont la complexité explose avec le nombre d'agents. VAMP, le cadre sur lequel s'appuient ces travaux, avait déjà démontré l'efficacité de l'accélération vectorielle pour un seul robot. Cette extension au cas multi-robot représente un saut qualitatif important. La capacité à modifier des algorithmes MRMP existants pour intégrer ces primitives suggère une adoption potentiellement large, sans repartir de zéro. Les prochaines étapes naturelles incluront des tests en environnements réels et l'intégration dans des middlewares robotiques standards comme ROS 2, où ce type d'accélération pourrait rapidement devenir un composant incontournable.

RobotiquePaper
1 source
Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données
361arXiv cs.RO 

Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données

Une équipe de chercheurs a publié sur arXiv (référence 2604.23001) une analyse exhaustive de l'état des données dans les modèles Vision-Langage-Action (VLA) appliqués à la robotique. Ces modèles, qui permettent à un robot de percevoir son environnement visuel, d'interpréter des instructions en langage naturel et d'exécuter des actions physiques, connaissent des progrès spectaculaires depuis deux ans. Pourtant, selon les auteurs, le vrai goulot d'étranglement n'est pas l'architecture des modèles : c'est l'infrastructure des données. L'étude passe en revue trois dimensions clés, les jeux de données, les benchmarks d'évaluation, et les moteurs de génération de données, en cartographiant systématiquement leurs forces et leurs lacunes. Ce travail met en lumière un problème fondamental qui freine toute la discipline : collecter des données robotiques de haute fidélité coûte extrêmement cher, ce qui pousse les équipes vers des données synthétiques moins réalistes. Les benchmarks actuels, censés mesurer les capacités des robots, peinent à évaluer deux compétences pourtant cruciales, la généralisation compositionnelle (combiner des tâches apprises pour en résoudre de nouvelles) et le raisonnement sur des séquences longues. Autrement dit, les robots paraissent performants dans les tests, mais restent fragiles face à des situations légèrement différentes de celles rencontrées lors de l'entraînement. Pour les industriels et les laboratoires qui investissent massivement dans la robotique autonome, ce décalage entre métriques et réalité représente un risque concret. Le domaine de l'IA incarnée (embodied AI) est aujourd'hui dominé par des acteurs comme Google DeepMind, Meta, Physical Intelligence ou encore des équipes universitaires qui rivalisent pour entraîner des robots généralistes. Les auteurs identifient quatre défis ouverts : aligner les représentations visuelles et textuelles, améliorer la supervision multimodale, mieux évaluer le raisonnement, et générer des données à grande échelle sans perdre en réalisme physique. Leur conclusion est nette : traiter l'infrastructure de données comme un objet de recherche à part entière, et non comme un arrière-plan technique, est la condition pour que les prochaines générations de VLA tiennent leurs promesses hors des laboratoires.

RobotiqueOpinion
1 source
Compensation de force sans contact en temps réel pour capteurs de poignet en chirurgie robotique haptique
362arXiv cs.RO 

Compensation de force sans contact en temps réel pour capteurs de poignet en chirurgie robotique haptique

Des chercheurs ont publié sur arXiv une méthode de compensation en temps réel des forces parasites affectant les capteurs force/couple montés au poignet de robots chirurgicaux, dans le cadre d'une plateforme d'entraînement appelée RoboScope. Le système présenté intègre un capteur force/couple (F/T) directement sur le poignet du bras robotisé, une configuration qui contourne les difficultés liées aux capteurs placés à l'extrémité des instruments mais qui génère en contrepartie des forces dites non-contact : gravité, biais du capteur, décalages d'installation et couples associés. Pour neutraliser ces perturbations sans sacrifier la réactivité, l'équipe propose un algorithme basé sur les moindres carrés récursifs (RLS), capable de fonctionner en continu sans phase de collecte de données préalable ni recalibrations répétées. Les résultats expérimentaux montrent une réduction des erreurs supérieure à 95 % pour les forces parasites et à 91 % pour les couples, des performances qui surpassent nettement les méthodes existantes. L'enjeu est direct : le retour haptique, c'est-à-dire la capacité à ressentir la résistance des tissus et à doser précisément la force appliquée, est une fonctionnalité absente de la grande majorité des systèmes de chirurgie robotisée actuels. Sans elle, les chirurgiens opèrent "à l'aveugle" mécaniquement, ce qui complique l'apprentissage et augmente le risque de traumatismes tissulaires lors des procédures délicates. En rendant fiable le retour haptique sur une plateforme à faible coût, cette avancée rend la formation plus réaliste et accessible à des hôpitaux ou centres de recherche ne disposant pas des budgets nécessaires aux systèmes commerciaux haut de gamme comme le Da Vinci. La chirurgie robotisée assistée connaît une expansion rapide, mais l'intégration du retour haptique reste un problème ouvert depuis des années, freinée par la complexité technique et les coûts. Les rares systèmes commerciaux qui commencent à proposer cette fonctionnalité restent inaccessibles pour la plupart des établissements de formation. RoboScope s'inscrit dans une tendance plus large de démocratisation des outils chirurgicaux avancés via des architectures open-source et abordables. La robustesse de la méthode RLS face aux variations de conditions opératoires laisse envisager une intégration dans des robots réels, au-delà du seul contexte d'entraînement.

UELes hôpitaux et centres de formation chirurgicale en France et en Europe pourraient bénéficier de plateformes d'entraînement robotique haptique accessibles et peu coûteuses, réduisant la dépendance aux systèmes commerciaux haut de gamme aujourd'hui inaccessibles à la majorité des établissements.

RobotiquePaper
1 source
Complémentarité par construction : approche par groupes de Lie pour les programmes quadratiques à complémentarité linéaire
363arXiv cs.RO 

Complémentarité par construction : approche par groupes de Lie pour les programmes quadratiques à complémentarité linéaire

Des chercheurs ont publié sur arXiv un nouveau solveur mathématique baptisé Marble, conçu pour résoudre une classe de problèmes d'optimisation particulièrement délicats en robotique : les programmes quadratiques avec contraintes de complémentarité linéaire, ou LCQPs. Le code est disponible en open source, implémenté en C++ avec des interfaces pour Julia et Python. L'article, référencé arXiv:2604.11991v2, propose une approche fondée sur la théorie des groupes de Lie pour contourner les limitations des solveurs existants sur ce type de problèmes. Les LCQPs interviennent au coeur de nombreux défis en robotique : modéliser le contact entre un bras manipulateur et un objet, ou gérer les phases d'appui et de décollage dans la locomotion. Ces problèmes sont non convexes et mélangent dynamique continue et événements discrets, ce qui les rend très difficiles à résoudre. Très peu de solveurs permettent aujourd'hui d'en calculer de bonnes solutions locales utilisables dans des pipelines de planification. Marble démontre sur une suite de benchmarks standardisés qu'il est compétitif face aux meilleures méthodes actuelles, et qu'il parvient à converger sur plusieurs problèmes robotiques concrets où les approches existantes échouent. L'intuition mathématique centrale du travail est que les contraintes de complémentarité forment un groupe de Lie sous relaxation infinitésimale, une structure géométrique qui permet d'effectuer l'optimisation directement sur la variété correspondante. Les auteurs introduisent une carte de rétraction numériquement stable, ce qui leur permet de paramétrer les contraintes de façon à ce qu'elles soient satisfaites par construction, éliminant les instabilités numériques classiques associées à ce type de contraintes. Cette avancée s'inscrit dans un effort plus large de la communauté robotique pour doter les systèmes autonomes de méthodes de planification capables de gérer des scénarios complexes impliquant contacts et transitions dynamiques, un verrou technique majeur pour les robots manipulateurs et les plateformes de locomotion avancées.

RobotiqueOpinion
1 source
U-ViLAR : localisation visuelle intégrant l'incertitude pour la conduite autonome par association et recalage différentiables
364arXiv cs.RO 

U-ViLAR : localisation visuelle intégrant l'incertitude pour la conduite autonome par association et recalage différentiables

Des chercheurs ont présenté U-ViLAR, un nouveau système de localisation visuelle conçu pour les véhicules autonomes, capable de fonctionner avec précision là où le GPS devient peu fiable. Dans les environnements urbains denses, les immeubles et chantiers de construction dégradent fortement la qualité du signal GNSS, rendant les systèmes de navigation classiques insuffisants. U-ViLAR contourne ce problème en exploitant uniquement des données visuelles, qu'il projette dans un espace dit "Bird's-Eye-View" (vue à vol d'oiseau) pour les aligner avec des cartes haute définition ou des cartes de navigation standard. Le système intègre deux modules clés : une association guidée par l'incertitude perceptive, qui filtre les erreurs liées à l'interprétation de la scène visuelle, et un recalage guidé par l'incertitude de localisation, qui affine la position estimée. Les résultats expérimentaux indiquent que cette approche atteint des performances à l'état de l'art sur plusieurs benchmarks de localisation, et le modèle a été testé à grande échelle sur des flottes de véhicules autonomes en conditions urbaines réelles. Cette avancée est directement pertinente pour l'industrie du véhicule autonome, qui bute depuis des années sur la fiabilité de la localisation dans les villes. Un taxi robot ou un camion de livraison autonome qui perd son signal GPS en passant sous un viaduc ou entre deux rangées de gratte-ciels peut commettre des erreurs fatales. En combinant localisation grossière à grande échelle et recalage fin de haute précision dans un seul cadre différentiable, U-ViLAR offre une robustesse accrue sans nécessiter un matériel GPS de haute gamme. La compatibilité avec les cartes de navigation ordinaires, pas seulement les cartes HD coûteuses, pourrait abaisser significativement la barrière à l'adoption pour les constructeurs. La localisation visuelle pour la conduite autonome est un champ de recherche très actif, notamment depuis que les limites du GPS en milieu urbain sont devenues un verrou industriel reconnu. Des acteurs comme Waymo, Mobileye ou les équipes de recherche de Baidu ont tous investit dans des approches alternatives, combinant LiDAR, caméras et cartes vectorielles. U-ViLAR se distingue par son traitement explicite de l'incertitude à chaque étape du pipeline, une approche plus prudente que les méthodes déterministes. La prochaine étape probable pour ces travaux sera une intégration dans des architectures de conduite autonome de niveau 4, où la précision de localisation conditionne directement la sécurité du système.

UECette avancée en localisation visuelle sans GPS pourrait accélérer le déploiement de véhicules autonomes dans les villes européennes denses, où les contraintes réglementaires (règlement européen sur les systèmes de conduite automatisée) exigent une haute fiabilité de localisation indépendante du signal satellitaire.

RobotiquePaper
1 source
Fonctions de barrière de contrôle résolues par programmation quadratique hiérarchique pour une interaction physique sûre entre humains et robots
365arXiv cs.RO 

Fonctions de barrière de contrôle résolues par programmation quadratique hiérarchique pour une interaction physique sûre entre humains et robots

Des chercheurs ont publié sur arXiv (réf. 2604.23039) une nouvelle approche pour sécuriser l'interaction physique entre humains et robots, en combinant les Fonctions de Barrière de Contrôle (CBF) avec un cadre de Programmation Quadratique Hiérarchique (HQP). L'objectif est de permettre à un robot de maintenir des comportements souhaités au point de contact avec l'humain, tout en respectant simultanément un ensemble de contraintes de sécurité parfois conflictuelles. Les expériences ont été menées sur un vrai robot redondant, c'est-à-dire un bras articulé disposant de plus de degrés de liberté que nécessaire, ce qui lui confère une flexibilité supplémentaire pour résoudre ces compromis en temps réel. L'intérêt de cette approche réside dans sa capacité à gérer un grand nombre de tâches de sécurité sans sacrifier les performances du robot. Jusqu'ici, quand plusieurs contraintes de sécurité entraient en conflit, les systèmes existants peinaient à trouver une solution réalisable. La hiérarchisation permet de relâcher certaines contraintes de moindre priorité de façon contrôlée, évitant ainsi les blocages tout en préservant les garanties essentielles. Pour des applications comme les robots de rééducation médicale ou les cobots industriels travaillant aux côtés d'opérateurs humains, cette flexibilité représente une avancée concrète en termes de fiabilité et de déploiement dans des environnements réels. Les Fonctions de Barrière de Contrôle sont devenues ces dernières années un outil théorique de référence pour la sécurité des systèmes autonomes, déjà appliquées au régulateur de vitesse adaptatif dans l'automobile ou à la navigation des robots quadrupèdes. Le défi persistant restait leur passage à l'échelle lorsque les tâches se multiplient et se contredisent. Ce travail s'inscrit dans un effort plus large de l'industrie robotique pour certifier formellement la sécurité des robots collaboratifs, un prérequis imposé par les régulateurs européens et les assureurs avant tout déploiement clinique ou industriel à grande échelle. Les prochaines étapes pourraient porter sur l'adaptation dynamique de la hiérarchie en fonction du contexte de l'interaction.

UELes régulateurs européens imposent une certification formelle de sécurité pour les cobots médicaux et industriels avant déploiement ; cette approche CBF-HQP fournit une base théorique et expérimentale pour répondre à ces exigences de conformité.

RobotiqueOpinion
1 source
Les robots humanoïdes apprennent la manipulation polyvalente par simulation tactile
366arXiv cs.RO 

Les robots humanoïdes apprennent la manipulation polyvalente par simulation tactile

Des chercheurs ont présenté un nouveau système d'apprentissage pour robots humanoïdes capable de manipuler des objets avec une dextérité inédite, en intégrant le sens du toucher comme modalité centrale. Baptisé HTD (Humanoid Transformer with Touch Dreaming), ce modèle multimodal de type encodeur-décodeur Transformer combine la vision multi-caméras, la proprioception et la détection tactile pour permettre à un robot humanoïde d'accomplir des tâches nécessitant des contacts physiques complexes et fréquents. Testé sur cinq tâches réelles impliquant des manipulations délicates, HTD affiche une amélioration relative de 90,9 % du taux de succès moyen par rapport aux approches concurrentes les plus solides. L'enjeu central de ce travail est de résoudre l'un des défis les plus persistants de la robotique humanoïde : la coordination entre stabilité du corps entier, agilité des mains et conscience du contact physique. Dans les environnements réels, un robot qui saisit un objet fragile ou manipule un outil doit constamment ajuster sa prise en fonction des forces ressenties, une capacité que les systèmes purement visuels peinent à développer. Grâce à la technique du "touch dreaming", la politique apprise ne se contente pas de prédire des séquences d'actions, elle anticipe également les forces futures exercées par les articulations des mains et les états tactiles latents à venir, ce qui l'oblige à construire des représentations internes riches et sensibles au contact. Les expériences d'ablation confirment que cette prédiction dans l'espace latent est plus efficace que la prédiction brute des données tactiles, avec un gain relatif de 30 % supplémentaire en taux de succès. L'architecture repose sur un contrôleur de la partie basse du corps entraîné par apprentissage par renforcement, qui assure la stabilité posturale pendant les manipulations complexes. La collecte de données de démonstration s'effectue via un système de téléopération en réalité virtuelle qui intègre à la fois des mains dextères et des capteurs tactiles, permettant de recueillir des interactions riches en contact sans étape de pré-entraînement tactile séparée. Ce travail, dont les matériaux sont publiés en open source, s'inscrit dans une tendance plus large de la recherche en robotique visant à doter les humanoïdes de capacités sensori-motrices proches de celles des humains, condition indispensable avant un déploiement dans des environnements domestiques ou industriels non contrôlés.

RobotiqueOpinion
1 source
Des blocs de construction assemblés par robots pour une construction plus efficace et durable
367MIT News Robotics 

Des blocs de construction assemblés par robots pour une construction plus efficace et durable

Des chercheurs du MIT ont développé un système de construction basé sur des blocs modulaires tridimensionnels, appelés "voxels", assemblés par des robots sur site. L'étude, publiée dans la revue Automation in Construction, a été menée par Miana Smith, doctorante au Center for Bits and Atoms (CBA) du MIT, en collaboration avec Paul Richard de l'École Polytechnique Fédérale de Lausanne, Alfonso Parra Rubio et Neil Gershenfeld, professeur au MIT et directeur du CBA. L'équipe a d'abord évalué huit designs de voxels existants, puis conçu trois nouveaux modèles basés sur une géométrie en treillis octet, capable de s'auto-aligner mécaniquement pour former des structures rigides sans nécessiter de nombreux connecteurs. Pour automatiser l'assemblage, les chercheurs ont développé les MILAbots, des robots qui se déplacent comme des chenilles sur la structure en cours de construction, en ancrant et étendant leur corps, et qui placent les voxels en place à l'aide de pinces avant de les verrouiller par emboîtement. Les résultats préliminaires sont saisissants sur le plan environnemental : ce système pourrait réduire le carbone incorporé, c'est-à-dire l'ensemble des émissions liées au cycle de vie des matériaux, de jusqu'à 82 % par rapport aux techniques courantes comme l'impression 3D en béton, le béton préfabriqué modulaire ou la charpente métallique. Le système serait également compétitif en termes de coût et de délais de construction. Le choix des matériaux utilisés pour fabriquer les voxels joue cependant un rôle déterminant dans leur bilan carbone et leur prix. Si ces chiffres se confirment à plus grande échelle, ce type d'approche pourrait transformer radicalement la manière dont on construit des bâtiments, un secteur qui représente aujourd'hui environ 40 % des émissions mondiales de CO2. Le CBA développe les voxels depuis plusieurs années, jusqu'ici appliqués à des domaines à haute performance comme l'aéronautique et le spatial, en partenariat avec la NASA, Airbus et Boeing, notamment pour des ailes d'avion, des pales d'éoliennes et des structures spatiales. L'idée centrale est d'importer dans la construction la rigueur d'ingénierie de l'industrie aéronautique. "Pourquoi ne pas construire des bâtiments aussi efficacement qu'on construit des avions ?" résume Neil Gershenfeld. Des questions essentielles restent encore à résoudre avant un déploiement à grande échelle : la robustesse à long terme, la résistance au feu, et la montée en puissance du système de robotique. Mais selon les chercheurs, ces premiers résultats valident la faisabilité de la fabrication numérique appliquée au bâtiment, un champ qui pourrait devenir central dans la course mondiale à la décarbonation de la construction.

UEL'implication de l'EPFL de Lausanne et les objectifs de décarbonation du bâtiment (40 % des émissions mondiales) s'inscrivent dans les priorités du Pacte Vert européen, bien que le système reste au stade de la recherche préliminaire.

RobotiqueActu
1 source
AsyncShield : un adaptateur edge prêt à l'emploi pour la navigation VLA asynchrone dans le cloud
368arXiv cs.RO 

AsyncShield : un adaptateur edge prêt à l'emploi pour la navigation VLA asynchrone dans le cloud

Des chercheurs ont présenté AsyncShield, un module de contrôle conçu pour corriger les problèmes de latence qui affectent les robots mobiles pilotés par des modèles de vision-langage-action (VLA) hébergés dans le cloud. Ces modèles, capables de généraliser sans entraînement préalable sur de nouvelles tâches, sont devenus une référence en robotique, mais leur taille massive, plusieurs dizaines de milliards de paramètres, impose leur déploiement à distance. AsyncShield s'intercale entre le cloud et le robot comme un adaptateur léger, sans modifier le modèle fondamental, et corrige en temps réel le décalage entre les instructions reçues et la position réelle du robot au moment de leur exécution. Le problème résolu est concret et critique : quand un robot mobile reçoit une instruction générée plusieurs centaines de millisecondes plus tôt, sa position a changé. L'intention du modèle, tourner à gauche, avancer de 50 cm, est exprimée dans un référentiel spatial désormais obsolète, ce qui peut provoquer des collisions. AsyncShield convertit ce décalage temporel en un offset spatial calculable par transformation cinématique, restituant l'intention géométrique d'origine du modèle VLA. Un algorithme d'apprentissage par renforcement contraint (PPO-Lagrangian sur un processus de décision de Markov contraint) arbitre ensuite dynamiquement entre la fidélité à cette intention et les contraintes de sécurité physique imposées par le LiDAR embarqué, qui détecte les obstacles à haute fréquence. L'enjeu dépasse le cadre académique : à mesure que les robots de livraison, d'entrepôt ou d'assistance domestique s'appuient sur des modèles fondamentaux cloud, la fiabilité de la connexion réseau devient un facteur de sécurité directement lié aux accidents physiques. AsyncShield propose une réponse modulaire, une interface de sous-objectif standardisée, une randomisation de domaine et une inflation du rayon de collision, qui lui permet de fonctionner sans réentraînement sur différents robots et environnements. Les expériences en simulation et en conditions réelles confirment une amélioration du taux de succès et de la sécurité physique, ouvrant la voie à un déploiement cloud de VLA dans des environnements dynamiques sans attendre que la latence réseau soit résolue côté infrastructure.

RobotiqueActu
1 source
Modèles VLA : éviter le verrouillage et préserver le contrôle lors de l'affinage avec peu de données
369arXiv cs.RO 

Modèles VLA : éviter le verrouillage et préserver le contrôle lors de l'affinage avec peu de données

Des chercheurs ont publié sur arXiv un article présentant DeLock, une méthode destinée à résoudre un problème concret rencontré lors de l'entraînement de politiques robotiques dites "vision-langage-action" (VLA). Ces modèles, conçus pour contrôler des robots en combinant perception visuelle et instructions en langage naturel, perdent leur capacité à généraliser dès qu'on les affine sur un petit jeu de données. Le phénomène, baptisé "lock-in", se manifeste sous deux formes : le concept lock-in, où le modèle se fixe sur les objets ou attributs vus à l'entraînement, et le spatial lock-in, où il se cantonne aux positions spatiales rencontrées durant la phase de fine-tuning. DeLock combine la préservation de l'ancrage visuel pendant le post-entraînement avec un guidage contrastif appliqué au moment de l'inférence pour orienter dynamiquement la génération d'actions selon de nouvelles instructions. Sur huit évaluations en simulation et en conditions réelles, il surpasse les méthodes concurrentes et égale ou dépasse les performances d'une politique généraliste entraînée sur un volume de données nettement plus important. Ce résultat est particulièrement significatif pour les équipes qui développent des robots polyvalents avec des budgets de données limités. Jusqu'ici, récupérer la généralisation perdue après un fine-tuning minimal exigeait soit des signaux de supervision supplémentaires issus de modèles fondationnels, soit des jeux de données augmentés, deux ressources coûteuses à produire. DeLock montre qu'il est inutile de chercher ailleurs : la connaissance pré-entraînée du modèle suffit, à condition de ne pas l'écraser pendant l'adaptation. Pour les développeurs d'applications robotiques industrielles ou domestiques, cela ouvre la voie à des déploiements spécialisés beaucoup plus accessibles, sans sacrifier la flexibilité face à des ordres inédits. Le lock-in illustre une tension fondamentale en apprentissage automatique entre spécialisation et généralisation, particulièrement aiguë en robotique où collecter des démonstrations physiques est lent et onéreux. Les grandes politiques VLA généralistes comme OpenVLA ou pi0 ont montré que l'entraînement à grande échelle produit des agents capables de suivre des instructions variées, mais leur adaptation à des tâches précises reste fragile. DeLock s'inscrit dans un courant de recherche cherchant à rendre ces modèles à la fois spécialisables et robustes, une propriété indispensable si l'on veut déployer des robots utiles dans des environnements réels et changeants.

RobotiqueOpinion
1 source
OpenPodcar2 : un véhicule ROS2 robuste pour la recherche en conduite autonome
370arXiv cs.RO 

OpenPodcar2 : un véhicule ROS2 robuste pour la recherche en conduite autonome

Une équipe de chercheurs vient de publier les spécifications complètes d'OpenPodcar2, une plateforme de véhicule autonome open source construite à partir d'un scooter de mobilité électrique du commerce, équipé d'un toit rigide. Ce projet, qui fait suite à une première version baptisée OpenPodcar, intègre désormais une électronique renforcée et une interface complète avec ROS2, le système d'exploitation robotique de référence. La plateforme repose sur trois composants principaux : des instructions de montage détaillées accompagnées d'une liste complète de matériaux, une intégration avec la carte mécatronique généraliste OSH R4 ainsi qu'un environnement de simulation Gazebo, et enfin des implémentations logicielles de haut niveau incluant la pile nav2, qui assure la cartographie autonome (SLAM) et le pilotage du véhicule entre deux positions en évitant les obstacles. Le coût total de construction est estimé à environ 7 000 dollars avec des composants neufs, ou 2 000 dollars en réutilisant un scooter d'occasion. Le véhicule peut transporter un passager humain ou une charge équivalente à une vitesse maximale de 15 km/h. L'intérêt d'OpenPodcar2 réside dans l'équilibre qu'il propose entre utilité réelle, sécurité, coût et robustesse, un compromis rarement atteint dans ce domaine. Concrètement, le véhicule est suffisamment compact pour être garé dans un laboratoire de recherche standard, tout en étant assez solide pour envisager des cas de déploiement réels, comme un service de taxi autonome dit "dernier kilomètre" ou le transport de conteneurs de livraison dans des centres-villes. Cela ouvre des perspectives directes pour les chercheurs qui cherchent à tester des algorithmes de navigation sur un vrai véhicule sans investir des centaines de milliers de dollars. Le projet s'inscrit dans une tendance plus large de démocratisation des plateformes de recherche en véhicules autonomes. La montée en puissance de ROS2 comme standard dans la robotique mobile a rendu possible des intégrations logicielles plus stables et interopérables qu'avec la génération précédente. En abaissant drastiquement le seuil d'accès matériel et logiciel, OpenPodcar2 pourrait permettre à des laboratoires universitaires disposant de budgets limités de mener des travaux qui étaient jusqu'ici réservés à des acteurs industriels ou à de grands centres de recherche. La publication complète des plans et du code source favorise également la reproductibilité scientifique et la collaboration communautaire autour de ces systèmes.

UELes laboratoires universitaires européens à budget limité pourraient adopter cette plateforme open source pour conduire des recherches en navigation autonome sans investissement matériel prohibitif.

RobotiqueActu
1 source
RecoverFormer : récupération en boucle fermée avec conscience des contacts pour robots humanoïdes
371arXiv cs.RO 

RecoverFormer : récupération en boucle fermée avec conscience des contacts pour robots humanoïdes

Des chercheurs ont présenté RecoverFormer, un système de contrôle entièrement automatisé permettant aux robots humanoïdes de récupérer leur équilibre après des chutes ou des poussées imprévues. Publié sur arXiv (2604.22911), ce travail introduit une politique d'apprentissage bout-en-bout testée sur le robot Unitree G1 dans le simulateur MuJoCo. L'architecture repose sur un transformeur causal analysant les 50 dernières étapes d'observation du robot, combiné à deux modules inédits : un « mode de récupération latent » permettant de passer fluidement entre différentes stratégies d'équilibre, et une tête de prédiction de contacts qui identifie les surfaces environnantes exploitables, murs, rambardes, bords de table. Entraîné uniquement sur sol plat et ouvert, RecoverFormer atteint 100 % de succès de récupération face à des poussées de 100 à 300 newtons, et ce quelle que soit la distance au mur (de 0,25 à 1,4 mètre), sans avoir jamais vu ces obstacles pendant l'entraînement. Ces résultats sont significatifs car ils montrent qu'un seul modèle peut gérer des situations radicalement différentes sans reprogrammation manuelle ni supervision par mode de récupération. Sous des conditions dégradées simulant des écarts dynamiques réels, le système maintient 75,5 % de succès avec une masse augmentée de 25 %, 89 % sous une latence de 30 millisecondes, et 91,5 % sur sol à faible friction. Combinées, ces perturbations n'abaissent le taux qu'à 99 %, ce qui est remarquable. Pour les industriels et les laboratoires déployant des humanoïdes dans des environnements réels non contrôlés, cette robustesse en transfert zéro-shot représente un saut qualitatif par rapport aux approches modulaires classiques qui nécessitent des comportements préprogrammés pour chaque scénario. La récupération après perturbation reste l'un des problèmes les plus difficiles de la robotique humanoïde, domaine où Boston Dynamics, Figure AI ou Agility Robotics investissent massivement. La plupart des systèmes actuels recourent à des pipelines hiérarchiques séparant détection, planification et exécution. RecoverFormer mise au contraire sur une politique unifiée, dont les modes de comportement émergent spontanément, validé par une analyse t-SNE sur 300 épisodes, sans étiquetage supervisé. La prochaine étape logique sera le déploiement sur robot réel, hors simulation, pour confirmer que cette généralisation tient face aux imprévisibilités du monde physique.

RobotiqueOpinion
1 source
QuietWalk : apprentissage par renforcement informé par la physique pour la locomotion humanoïde avec diverses chaussures
372arXiv cs.RO 

QuietWalk : apprentissage par renforcement informé par la physique pour la locomotion humanoïde avec diverses chaussures

Des chercheurs ont publié le 28 avril 2026 sur arXiv un système baptisé QuietWalk, conçu pour permettre aux robots humanoïdes de marcher silencieusement dans des environnements humains, que ce soit pieds nus ou chaussés de talons hauts, de baskets ou de chaussures de skate. Le cadre repose sur un apprentissage par renforcement guidé par la physique : un réseau de neurones contraint par la dynamique inverse estime en temps réel les forces de réaction au sol à partir des capteurs proprioceptifs du robot, sans jamais nécessiter de capteurs de force physiques lors du déploiement. Sur un jeu de données réel, cette approche réduit les erreurs de prédiction des forces verticales de 82 à 86 % par rapport à un prédicteur purement supervisé, et porte le coefficient de détermination de 0,39 à 0,99 pour le pied gauche, et de 0,67 à 0,99 pour le pied droit. À une vitesse de 1,2 m/s sur quatre types de sol, QuietWalk abaisse le niveau sonore moyen pondéré A de 7,17 dB et le niveau sonore de crête de 4,98 dB. Ces chiffres sont significatifs : une réduction de 7 dB correspond environ à diviser par deux la perception sonore. Pour des robots déployés dans des hôpitaux, des maisons de retraite ou des bureaux, cette différence est directement liée à l'acceptabilité par les humains. L'élimination des capteurs de force au sol simplifie aussi radicalement la chaîne matérielle, rendant le système moins fragile et moins coûteux à maintenir. La robustesse face aux différentes chaussures règle par ailleurs un problème concret : en conditions réelles, un robot livré avec une paire de semelles standard devra fonctionner sur moquette, carrelage ou parquet, avec ou sans protection aux pieds. La locomotion silencieuse des humanoïdes est un défi structurel du domaine depuis plusieurs années. Les approches précédentes s'appuyaient sur des objectifs cinématiques approximatifs ou sur des capteurs de force fragiles et coûteux, deux solutions peu généralisables. QuietWalk s'inscrit dans une tendance plus large qui consiste à intégrer des contraintes physiques directement dans la boucle d'entraînement pour obtenir des comportements plus fiables. Avec des acteurs comme Boston Dynamics, Agility Robotics ou Figure AI qui intensifient leur déploiement en environnements commerciaux, ce type de recherche fondamentale sur la cohabitation homme-robot devient un différenciateur clé pour la prochaine génération d'humanoïdes.

UECette recherche sur la locomotion silencieuse des humanoïdes est applicable aux environnements européens (hôpitaux, EHPAD, bureaux) mais aucun acteur ou institution français·e ou européen·ne n'est directement impliqué·e.

RobotiqueOpinion
1 source
ESPADA : accélération de l'apprentissage par imitation via sous-échantillonnage sémantique des démonstrations
373arXiv cs.RO 

ESPADA : accélération de l'apprentissage par imitation via sous-échantillonnage sémantique des démonstrations

Des chercheurs ont publié ESPADA, un système conçu pour accélérer les robots apprenants par imitation sans sacrifier leur précision. Présenté dans un article arXiv (2512.07371), le cadre analyse les démonstrations humaines enregistrées grâce à un pipeline combinant un grand modèle de vision (VLM) et un grand modèle de langage (LLM), qui segmente chaque séquence de mouvement en phases critiques et non critiques en tenant compte des relations spatiales 3D entre la pince du robot et les objets manipulés. Les segments jugés non essentiels sont fortement sous-échantillonnés, ce qui réduit les délais d'exécution, tandis que les phases de précision restent intactes. Pour étendre cette annotation d'un seul épisode à l'ensemble d'un jeu de données, ESPADA propage automatiquement les étiquettes via le Dynamic Time Warping (DTW) appliqué aux caractéristiques dynamiques. Testée sur deux architectures de référence, ACT et Diffusion Policy, aussi bien en simulation que dans des environnements réels, la méthode atteint en moyenne un gain de vitesse de 2x tout en conservant les taux de réussite initiaux. Ce résultat est concret : un robot industriel deux fois plus rapide sans perte de fiabilité représente un levier direct de rentabilité pour les lignes de production automatisées. L'absence de retraining et de modification architecturale est tout aussi importante, car elle permet d'intégrer ESPADA sur des systèmes existants sans refaire des campagnes d'entraînement coûteuses. Le principal verrou levé ici est psychologique autant que technique : les robots imitateurs ont tendance à reproduire la prudence humaine, ce tempo lent et hésitant qui, chez l'humain, compense l'incertitude mais devient un frein en production continue. La robotique par imitation a connu un essor rapide ces dernières années grâce à des architectures comme ACT (Action Chunking Transformer) ou les politiques de diffusion, qui permettent à des robots de généraliser à partir de quelques dizaines de démonstrations filmées. Les tentatives précédentes d'accélération reposaient sur des heuristiques statistiques, ignorant le sens des tâches, et échouaient sur des manipulations variées. ESPADA tranche en intégrant une compréhension sémantique de ce qui compte vraiment dans un mouvement, ouvrant la voie à des robots industriels plus compétitifs face à la programmation traditionnelle.

UELes industries manufacturières européennes utilisant la robotique par imitation pourraient bénéficier d'un doublement de la cadence sans surcoût de réentraînement, mais la méthode reste au stade de la recherche arXiv sans déploiement commercial annoncé.

RobotiquePaper
1 source
RL Token : amorcer le renforcement en ligne avec des modèles vision-langage-action
374arXiv cs.RO 

RL Token : amorcer le renforcement en ligne avec des modèles vision-langage-action

Des chercheurs ont publié sur arXiv une méthode baptisée RL Token (RLT) qui permet d'affiner en temps réel des modèles de vision-langage-action (VLA) pour la robotique, en seulement quelques heures de pratique sur des robots physiques. Ces modèles VLA sont capables d'apprendre des tâches de manipulation variées "out of the box", mais ils manquent de précision et de rapidité pour les exigences industrielles réelles. L'approche RLT repose sur deux mécanismes : elle adapte le VLA pour exposer un "RL token", une représentation compacte qui préserve les connaissances préentraînées tout en servant d'interface légère pour l'apprentissage par renforcement (RL), puis entraîne une petite tête acteur-critique sur ce token pour affiner les actions. La méthode a été validée sur quatre tâches réelles : vissage, fixation de colliers de serrage, insertion de chargeur et branchement de câble Ethernet. Les résultats sont frappants. Sur les parties les plus difficiles de chaque tâche, RLT améliore la vitesse d'exécution jusqu'à un facteur 3 et augmente significativement les taux de réussite en quelques minutes à quelques heures d'entraînement. Sur certaines tâches, le robot dépasse même la vitesse d'un opérateur humain en télé-opération. Ce niveau de performance, obtenu avec un temps de pratique aussi court, représente un saut qualitatif pour le déploiement de robots polyvalents dans des environnements industriels ou logistiques, où la précision des gestes répétitifs est critique. L'enjeu sous-jacent est la montée en maturité des modèles fondationnels pour la robotique. Si des systèmes comme RT-2, OpenVLA ou Pi-0 ont démontré qu'un modèle généraliste pouvait piloter un robot sur des tâches diverses, l'adaptation fine à un contexte spécifique restait coûteuse en données et en temps de calcul. RLT attaque précisément ce goulot d'étranglement en rendant le RL online praticable même sur de très grands VLAs, sans repartir de zéro. La course à des robots industriellement viables s'accélère, et cette approche pourrait devenir une brique standard du pipeline de déploiement pour des acteurs comme Figure, Physical Intelligence ou les équipes robotique de Google DeepMind.

RobotiquePaper
1 source
Flow Matching indépendant du temps pour un contrôle robotique génératif, adaptatif et robuste
375arXiv cs.RO 

Flow Matching indépendant du temps pour un contrôle robotique génératif, adaptatif et robuste

Des chercheurs ont publié GeCO (Generative Control as Optimization), un nouveau cadre d'apprentissage par imitation pour robots, présenté dans un article soumis à arXiv (arXiv:2603.17834). Là où les systèmes actuels basés sur la diffusion ou le flow matching consacrent un budget de calcul fixe à chaque mouvement, quelle qu'en soit la complexité, GeCO fonctionne différemment : il transforme la génération d'actions en un processus d'optimisation itérative. Concrètement, le modèle apprend un champ de vitesse stationnaire dans lequel les comportements experts forment des attracteurs stables, ce qui permet à l'inférence de s'arrêter dès convergence plutôt qu'après un nombre prédéterminé d'étapes. Le système s'intègre comme remplacement direct des têtes de flow matching existantes, notamment dans les modèles pi0-series de type Vision-Language-Action (VLA), sans nécessiter de réentraînement de l'architecture complète. L'impact principal est double. D'un côté, GeCO alloue automatiquement plus de calcul aux situations difficiles et s'arrête plus tôt pour les mouvements simples, ce qui améliore à la fois l'efficacité et le taux de succès sur les benchmarks de simulation standards. De l'autre, la géométrie stationnaire du champ de vitesse fournit un signal de sécurité natif et sans entraînement supplémentaire : la norme du champ au point d'action optimisé reste faible pour les situations connues, et augmente significativement en présence d'anomalies ou de situations hors distribution. C'est un détecteur d'OOD (out-of-distribution) gratuit, ce qui est rare dans ce type de systèmes. La robotique apprenante est aujourd'hui dominée par les politiques diffusion et flow matching, héritées des générateurs d'images, avec leur cortège d'étapes d'intégration fixes. Le problème de la détection de situations inconnues est un verrou majeur pour le déploiement sûr de robots en environnement réel. GeCO attaque les deux limites simultanément depuis un angle géométrique plutôt que supervisé, ce qui le distingue des approches concurrentes. Les prochaines étapes naturelles seront la validation sur matériel physique et l'intégration dans des pipelines de manipulation industrielle, domaines où l'adaptabilité computationnelle et la robustesse aux anomalies ont une valeur opérationnelle directe.

RobotiquePaper
1 source
Les paris comme méthode d'évaluation des performances sim-to-real
376arXiv cs.RO 

Les paris comme méthode d'évaluation des performances sim-to-real

Une équipe de chercheurs a publié sur arXiv (référence 2604.24018) une nouvelle approche pour évaluer les performances des robots sans multiplier les tests physiques coûteux. Le problème central est bien connu dans le domaine : tester un robot dans le monde réel est lent, onéreux et parfois dangereux, ce qui rend difficile la comparaison d'algorithmes, la validation de contrôleurs ou la prise de décisions réglementaires. Les chercheurs proposent une méthode fondée sur un mécanisme de "pari" (betting) pour estimer avec précision le comportement réel d'un robot à partir de données issues de simulateurs. Ils démontrent notamment son efficacité sur une tâche concrète de préhension et dépose d'objets (pick-and-place) par un bras robotique, en utilisant des distributions synthétiques comme substitut au monde réel. Cette approche présente un intérêt pratique majeur pour l'industrie robotique et les laboratoires de recherche. Contrairement aux méthodes existantes qui tentent soit de réduire la variance statistique (par échantillonnage d'importance), soit de corriger les biais introduits par les simulateurs, le mécanisme de pari proposé peut, sous certaines conditions théoriques démontrées, surpasser l'estimateur Monte Carlo classique. Les chercheurs fournissent également des règles de décision concrètes pour diagnostiquer en temps réel si la stratégie de pari fonctionne comme prévu, ce qui rend la méthode utilisable en pratique et pas seulement en théorie. Le fossé entre simulation et réalité, le fameux "sim-to-real gap", est l'un des obstacles majeurs au déploiement industriel des robots autonomes. Les simulateurs modernes restent imparfaits : ils modélisent mal les contacts, les frottements ou les imprécisions mécaniques, ce qui introduit des biais systématiques dans les évaluations. La plupart des travaux existants cherchent à corriger ces biais après coup ; cette publication propose au contraire de les intégrer dans un cadre probabiliste cohérent dès la conception de l'évaluation. Le code source est disponible sur GitHub (ISUSAIL/Bet4Sim2Real), ce qui facilite la reproduction des résultats et l'adoption par la communauté.

RobotiqueActu
1 source
Des piétons jouent à faire peur à un véhicule autonome
377arXiv cs.RO 

Des piétons jouent à faire peur à un véhicule autonome

Des chercheurs ont publié en avril 2026 une étude sur arXiv (référence 2604.24384) présentant la première démonstration empirique d'une approche inspirée de la théorie des jeux pour résoudre les blocages entre véhicules autonomes et piétons. L'expérience a été conduite avec un véritable AV face à des sujets humains dans des conditions de sécurité contrôlées. Les résultats montrent que le comportement des piétons correspond précisément aux prédictions du modèle appelé "Sequential Chicken" : les participants calibraient instinctivement leur trajectoire en pesant le risque d'une légère intrusion dans leur espace personnel contre le temps perdu à laisser passer le véhicule. Le coeur du problème que cette étude cherche à résoudre est ce que les spécialistes appellent le "Freezing Robot Problem". Les véhicules autonomes sont aujourd'hui programmés pour céder systématiquement aux piétons, par souci de sécurité absolue. En pratique, cette règle crée un effet pervers : les piétons apprennent rapidement qu'ils peuvent s'imposer à chaque interaction puisque le véhicule s'arrêtera quoi qu'il arrive, paralysant ainsi la circulation. Les chercheurs démontrent qu'un AV capable d'émettre des signaux de négociation crédibles, comme un très faible risque de collision ou une légère invasion de l'espace proxémique, suffit à rétablir un équilibre similaire à celui qui s'opère naturellement entre conducteurs humains. Ce résultat a des implications directes sur la conception des algorithmes de décision en milieu urbain. La question de la paralysie des robots autonomes face aux piétons est documentée depuis plusieurs années dans la recherche en robotique et préoccupe activement des acteurs comme Waymo, Cruise ou Motional. Jusqu'ici, les propositions basées sur la théorie des jeux restaient cantonnées à des simulations. Cette étude franchit une étape importante en validant l'approche sur des humains réels, lui conférant une crédibilité nouvelle. Elle soulève néanmoins des questions délicates sur ce qu'un véhicule autonome est légalement et éthiquement autorisé à "risquer" pour progresser, un débat qui mobilisera régulateurs et constructeurs à mesure que les flottes autonomes s'étendent dans les villes mondiales.

UELes villes européennes déployant des flottes de véhicules autonomes pourraient s'appuyer sur ces travaux pour repenser leurs algorithmes de négociation piéton-AV en milieu urbain.

RobotiqueActu
1 source
Approcher puis agir : séquençage comportemental pour une manipulation robotique humanoïde
378arXiv cs.RO 

Approcher puis agir : séquençage comportemental pour une manipulation robotique humanoïde

Des chercheurs ont publié Move-Then-Operate (MTO), un nouveau cadre d'apprentissage pour la manipulation robotique qui s'inspire directement du fonctionnement du cerveau humain. L'approche sépare explicitement chaque geste robotique en deux phases distinctes : une phase de déplacement grossier vers la cible (move), puis une phase d'interaction de précision avec l'objet (operate). Pour orchestrer ce découpage, le système utilise une architecture à double expert, pilotée par un sélecteur de phase entraînable. Les étiquettes de phase sont générées automatiquement via un pipeline basé sur un modèle de langage multimodal, qui analyse des indicateurs contextuels légers comme la vitesse de l'effecteur terminal et la décomposition des sous-tâches. Sur le benchmark RoboTwin2, MTO atteint un taux de réussite moyen de 68,9 %, surpassant le modèle de référence monolithique pi zéro de 24 points de pourcentage, tout en atteignant ses performances maximales en 40 % moins d'étapes d'entraînement. Ces résultats ont une portée significative pour la robotique industrielle et domestique. En isolant structurellement la phase de navigation de la phase de manipulation fine, MTO parvient à égaler, voire dépasser, des modèles entraînés sur dix fois plus de données. Cette efficacité d'apprentissage représente un avantage économique et pratique considérable : moins de données coûteuses à collecter, des cycles d'entraînement plus courts, et des robots capables de tâches de haute précision comme assembler des composants délicats, manipuler des objets fragiles ou effectuer des gestes médicaux assistés. La robotique moderne bute depuis des années sur le problème des politiques monolithiques, ces systèmes qui tentent d'apprendre tous les comportements moteurs dans un seul modèle unifié, sans distinguer les régimes dynamiques fondamentalement différents que sont le déplacement et la manipulation précise. Des frameworks comme pi zéro de Physical Intelligence ont marqué des avancées, mais restent limités par cette indifférenciation. MTO s'inscrit dans une tendance plus large visant à introduire des biais structurels inspirés de la cognition humaine dans les architectures robotiques. Les prochaines étapes naturelles incluent la validation sur des robots physiques réels et l'extension à des environnements non structurés, là où la généralisation reste le défi central du domaine.

RobotiqueOpinion
1 source
Exploiter l'agilité des robots hybrides roues-pattes pour l'évitement réflexe d'obstacles à haute dynamique
379arXiv cs.RO 

Exploiter l'agilité des robots hybrides roues-pattes pour l'évitement réflexe d'obstacles à haute dynamique

Des chercheurs ont présenté AWARE (Adaptive Wheeled-Legged Avoidance and Reflexive Evasion), un nouveau système d'apprentissage par renforcement hiérarchique conçu pour permettre aux robots hybrides roues-pattes d'esquiver des obstacles en mouvement rapide de manière réflexive. La recherche, publiée sur arXiv sous la référence 2604.23761, s'appuie sur des expériences menées dans le simulateur Isaac Lab d'NVIDIA ainsi que sur des déploiements en conditions réelles sur la plateforme robotique M20. Le système génère spontanément des comportements d'évitement variés, notamment une esquive frontale en plongeon et un écart latéral, sans que ces mouvements aient été explicitement programmés. L'intérêt de cette avancée réside dans la capacité à résoudre un problème longtemps considéré comme un verrou technique majeur : les robots à morphologie hybride souffrent d'un couplage entre leurs modes de locomotion et de contraintes non holonomes qui rendent l'évitement dynamique particulièrement difficile à contrôler. En exploitant pleinement la dualité roues-pattes, AWARE permet à ces plateformes d'atteindre un niveau d'agilité réflexive inédit, ouvrant la voie à des déploiements dans des environnements industriels dangereux, des opérations de sauvetage ou encore des scénarios militaires où la rapidité de réaction face à des menaces mobiles est critique. Les robots à pattes ont longtemps dominé la robotique d'exploration en terrain accidenté, mais leur consommation énergétique élevée limite leur autonomie. Les plateformes hybrides roues-pattes, comme le M20 utilisé dans ces travaux, cherchent à combiner le meilleur des deux mondes depuis plusieurs années, avec des équipes comme Boston Dynamics ou des laboratoires universitaires qui explorent ce compromis. L'approche par apprentissage par renforcement hiérarchique adoptée ici représente une tendance forte dans le domaine : plutôt que de coder manuellement chaque comportement, on laisse émerger des stratégies complexes depuis l'entraînement. La prochaine étape logique sera d'étendre ces capacités à des environnements peuplés de multiples obstacles dynamiques simultanés.

RobotiqueOpinion
1 source
KERV : décodage spéculatif à correction cinématique pour modèles VLA incarnés
380arXiv cs.RO 

KERV : décodage spéculatif à correction cinématique pour modèles VLA incarnés

Des chercheurs ont publié KERV (Kinematic-Rectified Speculative Decoding), un nouveau cadre d'optimisation destiné à accélérer les modèles Vision-Language-Action (VLA) utilisés pour le contrôle robotique. Ces modèles VLA, qui pilotent les robots en générant des séquences de tokens représentant des actions, souffrent d'une vitesse d'inférence trop faible pour de nombreuses applications en temps réel. L'approche proposée combine la technique de décodage spéculatif (Speculative Decoding, SD) avec des prédictions issues de la cinématique robotique, permettant d'atteindre une accélération de 27 à 37 % selon les tâches, sans perte mesurable du taux de succès. Le décodage spéculatif, déjà éprouvé pour les grands modèles de langage, pose deux problèmes spécifiques lorsqu'on l'applique aux VLA : d'une part, la correction des erreurs de tokens implique des re-inférences coûteuses en calcul ; d'autre part, régler le seuil d'acceptation des tokens est délicat et sensible au contexte. KERV résout ces deux obstacles en intégrant un filtre de Kalman basé sur la cinématique, qui prédit les actions futures et corrige les erreurs du décodage spéculatif sans recourir à ces re-inférences. Une stratégie d'ajustement dynamique du seuil d'acceptation, également fondée sur la cinématique, vient compléter le dispositif pour s'adapter automatiquement aux conditions d'exécution. Cette contribution s'inscrit dans une tendance de fond : la robotique incarnée (embodied intelligence) cherche à réduire l'écart entre les capacités de raisonnement des IA génératives et les contraintes du monde physique, notamment la latence. Les modèles VLA, en plein essor depuis les travaux de Google et Physical Intelligence sur des architectures comme RT-2 ou pi0, sont prometteurs mais trop lents pour des robots opérant dans des environnements dynamiques. En greffant la physique du mouvement sur l'inférence neuronale, KERV ouvre une voie pragmatique vers des robots plus réactifs, sans nécessiter de refonte architecturale majeure, un atout décisif pour le déploiement industriel à court terme.

RobotiqueOpinion
1 source
Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes
381arXiv cs.RO 

Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes

Des chercheurs ont présenté un système de badminton pour robots humanoïdes entièrement piloté par apprentissage par renforcement, sans recours à des démonstrations d'experts ni à des référentiels de mouvement préenregistrés. Le pipeline d'entraînement, décrit dans un article soumis sur arXiv (arXiv:2511.11218), repose sur un curriculum en trois étapes : acquisition des déplacements de jambes, génération de frappes guidée par la précision, puis raffinement centré sur la tâche. En simulation, deux robots humanoïdes ont maintenu un échange de 21 coups consécutifs. Sur matériel réel, face à une machine lance-volants et à des adversaires humains, le robot a atteint des vitesses de volant en sortie de raquette allant jusqu'à 19,1 mètres par seconde, avec une distance d'atterrissage moyenne des retours de 4 mètres. Cette démonstration marque un cap dans la robotique des interactions dynamiques. Jusqu'ici, les robots humanoïdes excellaient dans des environnements statiques, locomotion, manipulation d'objets posés, mais échouaient face à des objets rapides et imprévisibles. Coordonner bras et jambes en temps réel pour intercepter et renvoyer un volant relève d'une difficulté qualitativement différente : le robot doit anticiper, se positionner et frapper avec précision en une fraction de seconde. Ce système unifié, qui pilote simultanément le bas et le haut du corps pour servir l'objectif de frappe, constitue une avancée directement applicable à d'autres tâches critiques en dynamique, comme la manipulation d'objets projetés ou les interactions physiques en environnement industriel. Pour déployer ce contrôleur sur robot réel, les chercheurs ont intégré un filtre de Kalman étendu (EKF) chargé d'estimer et de prédire la trajectoire du volant. Ils ont également développé une variante sans prédiction explicite, qui supprime l'EKF tout en atteignant des performances comparables, ce qui suggère que le réseau de neurones internalise lui-même une forme d'anticipation. Cette approche s'inscrit dans une tendance de fond : former des comportements moteurs complexes uniquement en simulation, puis les transférer sur hardware (sim-to-real transfer), sans nécessiter de données humaines coûteuses. Les résultats ouvrent la voie à des robots capables d'interactions physiques rapides et précises dans des contextes jusqu'ici réservés à l'humain.

RobotiqueOpinion
1 source
Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle
382arXiv cs.RO 

Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle

Des chercheurs ont développé BiDemoSyn, un système capable de générer automatiquement des milliers de démonstrations d'entraînement pour des robots à deux bras à partir d'un seul exemple réel. Présenté dans un article publié sur arXiv (arXiv:2512.09297), le framework décompose chaque tâche en deux composantes : des blocs de coordination invariants, communs à toutes les exécutions, et des ajustements variables selon la forme et la position des objets manipulés. En combinant un alignement guidé par vision artificielle et une optimisation légère des trajectoires, le système produit des données d'entraînement riches en contacts physiques et réalistes, le tout en quelques heures, sans nécessiter des sessions répétées de téléopération humaine. Les expériences couvrent six tâches différentes impliquant deux bras robotiques simultanés. L'enjeu est considérable : entraîner des robots capables de manipuler des objets avec les deux mains de façon habile reste l'un des défis les plus difficiles de la robotique d'apprentissage par imitation. Jusqu'ici, les équipes devaient choisir entre la téléopération, précise mais extrêmement coûteuse en temps humain, et la simulation, scalable mais souvent déconnectée de la réalité physique. BiDemoSyn court-circuite ce compromis : les politiques entraînées sur ses données généralisent à de nouvelles poses et formes d'objets inédits, surpassant nettement les méthodes de référence existantes. Plus remarquable encore, ces politiques réalisent un transfert zéro-shot vers d'autres plateformes robotiques, sans réentraînement, grâce à une représentation centrée sur les objets et une action en six degrés de liberté découplée de la mécanique propre à chaque robot. Ce travail s'inscrit dans une course intense à la scalabilité des données robotiques, un goulot d'étranglement majeur qui freine le déploiement de robots polyvalents dans des environnements industriels et domestiques. Des acteurs comme Google DeepMind, Physical Intelligence ou Tesla Optimus investissent massivement dans cette problématique. BiDemoSyn propose une voie intermédiaire pragmatique : ancrer les données dans le réel dès la première démonstration, puis les amplifier algorithmiquement. L'extension naturelle en mode few-shot, également démontrée dans l'article, ouvre la perspective d'une diversification encore plus large avec un effort humain minimal, rapprochant l'apprentissage par imitation d'une industrialisation viable.

RobotiqueOpinion
1 source
Flux sensoriel modulaire pour intégrer le feedback physique dans les modèles vision-langage-action
383arXiv cs.RO 

Flux sensoriel modulaire pour intégrer le feedback physique dans les modèles vision-langage-action

Des chercheurs ont publié fin avril 2026 sur arXiv un article présentant MoSS (Modular Sensory Stream), un cadre modulaire conçu pour enrichir les modèles Vision-Langage-Action (VLA) avec des retours physiques multiples. Les VLA sont des systèmes d'intelligence artificielle utilisés en robotique pour interpréter des scènes visuelles et du langage naturel afin de générer des actions. MoSS introduit des flux de modalités découplés qui intègrent des signaux physiques hétérogènes, notamment tactiles et de couple mécanique (torque), directement dans le flux d'action du modèle via un mécanisme d'attention croisée. Un schéma d'entraînement en deux étapes, où les paramètres du VLA préentraîné sont d'abord gelés, assure une incorporation stable des nouvelles modalités. Des expériences en conditions réelles démontrent des gains de performance synergiques lorsque ces signaux sont combinés. L'enjeu est considérable pour la robotique de manipulation. Aujourd'hui, la grande majorité des VLA reposent quasi exclusivement sur la vision, ce qui les rend aveugles aux informations que procure le toucher ou la résistance mécanique lors d'un contact. Un robot vissant un écrou, saisissant un objet fragile ou détectant un glissement ne peut s'appuyer sur la caméra seule pour ajuster sa prise en temps réel. MoSS montre que l'ajout de signaux tactiles et de couple, traités en parallèle plutôt qu'en série, améliore la précision des actions de manière complémentaire, chaque modalité compensant les angles morts des autres. Les VLA sont devenus l'un des fronts les plus actifs de la recherche en robotique depuis l'émergence de modèles comme RT-2 (Google DeepMind) ou OpenVLA. La tendance dominante consistait jusqu'ici à enrichir la composante visuelle ou langagière de ces systèmes, en négligeant les sens physiques que les humains mobilisent naturellement pour manipuler des objets. MoSS s'inscrit dans un courant émergent qui cherche à doter les robots d'une perception proprioceptive et haptique plus fine. La nature modulaire du framework facilite l'ajout de nouvelles modalités sensorielles à l'avenir, ce qui ouvre la voie à des robots capables d'intégrer température, vibration ou pression sans nécessiter une refonte complète de l'architecture.

RobotiqueOpinion
1 source
BridgeACT : relier les démonstrations humaines aux actions robotiques via les affordances outils-cibles unifiées
384arXiv cs.RO 

BridgeACT : relier les démonstrations humaines aux actions robotiques via les affordances outils-cibles unifiées

Des chercheurs ont présenté BridgeACT, un nouveau framework d'apprentissage robotique capable d'enseigner des gestes de manipulation à un robot uniquement à partir de vidéos humaines, sans aucune donnée de démonstration robotique. Publié sur arXiv (2604.23249), le système repose sur un concept central : l'affordance, soit la représentation de ce qu'un objet permet de faire et comment l'atteindre. BridgeACT décompose chaque tâche en deux sous-problèmes distincts : d'abord identifier où saisir un objet dans la scène, puis prédire comment se déplacer en 3D pour accomplir la manipulation. Ces affordances sont ensuite traduites en commandes exécutables par le robot via un module de préhension et un contrôleur de mouvement en boucle fermée. Les expériences conduites sur des tâches réelles montrent que BridgeACT surpasse les approches existantes et généralise à des objets, des scènes et des angles de vue inédits. L'enjeu est considérable : les vidéos humaines disponibles sur internet constituent une source d'apprentissage d'une richesse et d'une diversité incomparables, mais les convertir en comportements robotiques exploitables reste l'un des verrous majeurs du domaine. BridgeACT ouvre une voie concrète pour entraîner des robots sans passer par des phases coûteuses de collecte de données téléopérées ou de simulation robotique. Pour l'industrie, cela pourrait drastiquement réduire le temps et le coût de déploiement de robots dans de nouveaux environnements ou pour de nouvelles tâches. La robotique d'apprentissage par imitation se heurte depuis des années au problème du fossé entre l'observation humaine et l'exécution robotique. La plupart des approches actuelles, comme RT-2 ou ACT, exigent encore des volumes importants de démonstrations réalisées directement par des robots. BridgeACT s'inscrit dans une tendance plus large visant à exploiter les données humaines brutes, aux côtés de travaux comme Droid ou HumanPlus, mais se distingue par l'utilisation d'affordances comme représentation intermédiaire indépendante du corps (embodiment-agnostic). La prochaine étape sera de tester la robustesse du système sur des tâches plus complexes impliquant des chaînes de manipulation multi-étapes dans des environnements non contrôlés.

RobotiqueOpinion
1 source
InCoM : perception guidée par l'intention et coordination structurée pour la manipulation mobile
385arXiv cs.RO 

InCoM : perception guidée par l'intention et coordination structurée pour la manipulation mobile

Des chercheurs ont publié InCoM, un nouveau cadre algorithmique pour la manipulation mobile robotique, détaillé dans un préprint arXiv (2602.23024). La manipulation mobile désigne la capacité d'un robot à se déplacer dans l'espace tout en manipulant des objets avec son bras, une combinaison exigeante qui requiert la coordination simultanée d'une base motorisée et d'un effecteur. InCoM aborde ce problème sur deux fronts : d'un côté, un mécanisme de perception piloté par l'intention, qui infère dynamiquement les étapes motrices du robot pour redistribuer l'attention perceptuelle à différentes échelles ; de l'autre, un décodeur d'action à flux correspondant découplé, qui modélise explicitement la génération coordonnée des commandes base-bras sans les coupler directement. Testé sur trois scénarios du benchmark ManiSkill-HAB, InCoM surpasse les méthodes existantes avec des gains de taux de succès respectifs de 28,2 %, 26,1 % et 23,6 %, sans recours à des informations privilégiées. Ces performances ont également été confirmées sur des tâches réelles. Ces résultats comptent parce que la manipulation mobile reste l'un des verrous majeurs de la robotique généraliste. Un robot capable de naviguer dans un appartement et d'y accomplir des tâches physiques complexes, comme ranger des objets ou préparer un repas, doit gérer en permanence des points de vue changeants et des conflits de commande entre sa locomotion et son bras. Les gains de plus de 20 points de pourcentage sur un benchmark de référence signalent une rupture méthodologique, pas une amélioration incrémentale, ce qui intéresse directement les industriels travaillant sur les robots domestiques et les systèmes logistiques autonomes. La difficulté du couplage base-bras est connue depuis les premières architectures de robots mobiles manipulateurs dans les années 2010. Les approches récentes, souvent basées sur l'apprentissage par renforcement ou les transformers visuels, peinent encore à allouer efficacement l'attention perceptuelle quand la caméra du robot se déplace. InCoM répond à ce problème en introduisant une notion d'intention latente qui anticipe les phases de mouvement avant qu'elles ne surviennent. La validation sur environnements réels, souvent absente des travaux académiques, renforce la crédibilité du système. La prochaine étape probable sera l'intégration de ce cadre dans des plateformes robotiques commerciales comme celles de Figure AI, Boston Dynamics ou 1X Technologies, toutes engagées dans la course au robot domestique généraliste.

RobotiquePaper
1 source
Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts
386arXiv cs.RO 

Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts

Des chercheurs ont présenté le Tube Diffusion Policy (TDP), un nouveau cadre d'apprentissage par imitation conçu pour la manipulation robotique en contact intense, c'est-à-dire les tâches où un robot doit saisir, pousser ou assembler des objets en gérant en permanence les incertitudes physiques. Publié sur arXiv (référence 2604.23609), TDP combine deux approches distinctes : les modèles génératifs à diffusion, qui ont récemment démontré de grandes capacités pour apprendre des comportements complexes, et le contrôle par tube, une méthode de rétroaction permettant de corriger les trajectoires en temps réel. Le système a été évalué sur le benchmark Push-T, largement utilisé dans la communauté robotique, ainsi que sur trois tâches additionnelles de manipulation dextère intégrant retour visuel et tactile. Sur l'ensemble de ces tests, TDP surpasse tous les modèles de référence de l'état de l'art, et deux expériences en conditions réelles confirment sa robustesse face aux perturbations extérieures et aux incertitudes de contact. L'apport concret de TDP réside dans sa capacité à réagir rapidement à des situations imprévues pendant l'exécution d'une tâche. Les approches dominantes reposent sur l'action chunking, qui consiste à planifier de longues séquences de mouvements à l'avance : efficace dans des environnements stables, cette méthode échoue dès qu'un contact inattendu ou une résistance physique surgit. TDP génère au contraire un "tube d'action", une enveloppe autour de la trajectoire nominale qui permet des micro-corrections continues à haute fréquence en s'appuyant sur les données tactiles et visuelles en temps réel. Le mécanisme de correction progressive réduit également le nombre d'étapes de débruitage nécessaires au modèle de diffusion, ce qui améliore significativement la vitesse d'inférence et rend le système compatible avec un contrôle robotique en boucle fermée rapide. Cette publication s'inscrit dans une dynamique de recherche intense autour des politiques de diffusion en robotique, initiée notamment par les travaux de Chi et al. sur Diffusion Policy en 2023. L'intégration du retour tactile reste un défi majeur du domaine : contrairement à la vision, le toucher impose une latence ultra-faible et une sensibilité aux perturbations millimétriques. TDP ouvre des perspectives pour des applications industrielles exigeantes comme l'assemblage de pièces fines, la chirurgie assistée ou les prothèses robotiques, où la réactivité au contact est critique. Les prochaines étapes probables incluent l'extension à des environnements plus complexes et la généralisation à de nouveaux types de capteurs tactiles.

RobotiqueOpinion
1 source
SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme
387arXiv cs.RO 

SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme

Des chercheurs ont publié SARM (Stage-Aware Reward Modeling), un nouveau cadre d'apprentissage destiné aux robots manipulateurs, conçu pour résoudre des tâches longues et complexes impliquant des objets déformables. Le système repose sur un modèle de récompense vidéo qui prédit simultanément l'étape courante d'une tâche et la progression fine du robot, en s'appuyant sur des annotations en langage naturel pour découper les démonstrations en sous-tâches cohérentes. À partir de ce modèle, les auteurs introduisent le Reward-Aligned Behavior Cloning (RA-BC), une méthode qui filtre et repondère les démonstrations d'entraînement selon leur qualité estimée. Sur la tâche de pliage de t-shirt, SARM atteint un taux de réussite de 83 % à partir d'un état aplati et de 67 % à partir d'un état froissé, contre seulement 8 % et 0 % avec le clonage comportemental classique. Ces résultats représentent un bond considérable pour la robotique manipulation, un domaine où les objets déformables comme les vêtements posaient jusqu'ici des problèmes quasi insolubles aux systèmes automatisés. Le principal apport de SARM est sa robustesse face à la variabilité des démonstrations humaines : plutôt que d'indexer les étapes par numéro de frame (une approche fragile dès que les durées varient), le modèle comprend sémantiquement où en est le robot dans la tâche. Cela rend le système directement utilisable dans des environnements réels, sans calibration fine pour chaque nouvelle variante du problème. L'apprentissage par imitation à grande échelle est au coeur de la robotique moderne, portée par des laboratoires comme Google DeepMind, Stanford ou Carnegie Mellon, ainsi que des startups comme Physical Intelligence. Le défi persistant est la qualité inconsistante des données de démonstration collectées sur des tâches longues : un seul geste maladroit peut corrompre tout un exemple d'entraînement. SARM aborde ce problème en amont, au niveau de la supervision, plutôt qu'en collectant toujours plus de données. Cette approche, à la fois économe en annotations et généralisable hors distribution, pourrait devenir un composant standard des pipelines de robot learning dans les prochaines années.

RobotiqueOpinion
1 source
Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique
388arXiv cs.RO 

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper
1 source
L'apprentissage par démonstration avec détection d'échecs pour la navigation sécurisée des robots
389arXiv cs.RO 

L'apprentissage par démonstration avec détection d'échecs pour la navigation sécurisée des robots

Des chercheurs ont publié un article de recherche présentant un nouveau cadre d'apprentissage pour la navigation robotique, intitulé "Learning from Demonstration with Failure Awareness for Safe Robot Navigation" (arXiv:2604.23360). Leur approche s'attaque à un problème fondamental des systèmes d'apprentissage par démonstration : les robots apprennent principalement à partir de comportements réussis, ce qui les rend vulnérables dès qu'ils rencontrent des situations inédites ou dangereuses. Pour y remédier, l'équipe propose un cadre qui exploite explicitement les expériences d'échec, comme les collisions, jusqu'ici largement ignorées car elles n'offrent pas de comportement directement imitable. Le coeur de l'innovation réside dans une séparation stricte des rôles des deux types de données. Les expériences d'échec servent exclusivement à calibrer l'estimation de la valeur dans les zones à risque, signalant au robot les régions à éviter, tandis que l'apprentissage de la politique de navigation reste cantonné aux démonstrations réussies. Cette dissociation permet d'intégrer les données d'échec sans dégrader les performances globales, un écueil habituel des approches naïves qui mélangent les deux. Le tout est implémenté dans un cadre d'apprentissage par renforcement hors ligne, ce qui signifie que le robot apprend à partir d'un jeu de données fixe, sans nécessiter d'interactions supplémentaires avec l'environnement pendant l'entraînement. Les évaluations menées à la fois en simulation et en environnements réels montrent une réduction significative des taux de collision, tout en maintenant un taux de succès des tâches équivalent, avec une bonne généralisation sur différentes plateformes robotiques. Cette recherche s'inscrit dans un effort plus large pour rendre les robots autonomes fiables dans des contextes ouverts et imprévisibles, un enjeu critique pour leur déploiement dans des entrepôts logistiques, des hôpitaux ou des espaces publics. L'apprentissage par démonstration reste l'une des approches les plus pratiques pour programmer des robots sans expertise en RL, mais sa fragilité face aux situations hors distribution freine son adoption industrielle. En valorisant les données d'échec autrement que comme du bruit à écarter, ce travail ouvre une voie prometteuse pour construire des politiques de navigation plus robustes, sans coût de collecte de données supplémentaire.

RobotiqueActu
1 source
RobotPan : système de vision robotique panoramique à 360° pour la perception incarnée
390arXiv cs.RO 

RobotPan : système de vision robotique panoramique à 360° pour la perception incarnée

Des chercheurs ont publié RobotPan, un système de vision robotique à 360 degrés combinant six caméras et un capteur LiDAR pour offrir une couverture visuelle complète en temps réel. Présenté dans un article arXiv (2604.13476), ce système est accompagné d'un framework de rendu appelé RobotPan, capable de prédire des représentations 3D compactes et à échelle métrique, les "3D Gaussians", à partir d'un nombre limité de vues calibrées. Le pipeline traite les données en temps réel, permettant un rendu, une reconstruction et un streaming fluides sur des plateformes robotiques réelles couvrant la navigation, la manipulation et la locomotion. Les chercheurs publient également un jeu de données multi-capteurs inédit spécifiquement conçu pour la synthèse de nouvelles vues et la reconstruction 3D en robotique. L'enjeu est considérable pour les applications où un opérateur humain interagit directement avec un robot à distance, que ce soit en télé-opération, collecte de données ou prise de contrôle d'urgence. Les interfaces visuelles actuelles se limitent à des champs de vision étroits orientés vers l'avant, ou obligent l'opérateur à basculer manuellement entre plusieurs caméras, interrompant son flux de travail. Les mouvements du robot provoquent par ailleurs des vibrations qui génèrent un mal du simulateur chez les utilisateurs de casques de réalité mixte. RobotPan résout ces deux problèmes en fournissant une vue panoramique continue, stabilisée et exploitable directement dans un casque. La technique repose sur une représentation sphérique unifiée dans laquelle les informations multi-vues sont fusionnées, puis décodées via des priorités volumétriques hiérarchiques : la résolution est fine près du robot et plus grossière à distance, réduisant la charge de calcul sans sacrifier la qualité visuelle. Un mécanisme de fusion en ligne met à jour les éléments dynamiques tout en maintenant stable la représentation des zones statiques, évitant une croissance mémoire non contrôlée sur des séquences longues. Les résultats expérimentaux montrent que RobotPan atteint une qualité compétitive face aux méthodes de reconstruction existantes tout en générant significativement moins de Gaussians, ce qui ouvre la voie à un déploiement embarqué réaliste sur des robots autonomes en environnement réel.

RobotiqueActu
1 source
Navigation sûre en environnements inconnus et encombrés par génération de zones libres convexes orientées
391arXiv cs.RO 

Navigation sûre en environnements inconnus et encombrés par génération de zones libres convexes orientées

Des chercheurs ont publié sur arXiv un article présentant FRGraph, un nouveau cadre de navigation autonome pour robots évoluant dans des environnements encombrés et inconnus. L'approche repose sur la génération de régions libres convexes, des zones de l'espace certifiées sans collision, en intégrant simultanément la géométrie du robot et les directions de déplacement envisagées. Les expériences ont été conduites en simulation 2D dense, puis validées sur un robot quadrupède et un drone (UAV) en conditions réelles. Le code source est disponible publiquement sur GitHub sous le nom FRGraph. Le problème résolu est double. D'une part, les méthodes existantes construisent ces régions libres en se basant uniquement sur la géométrie des obstacles environnants, sans tenir compte de la direction où le robot doit aller : dans un couloir étroit ou un espace très encombré, les régions générées ne permettent pas toujours au robot de passer physiquement. D'autre part, vérifier la sécurité d'une trajectoire uniquement en points discrets ne garantit pas l'absence de collision entre ces points lorsque la forme réelle du robot est prise en compte. FRGraph résout les deux en couplant la génération des régions à la direction de déplacement, et en utilisant une certification continue basée sur la constante de Lipschitz pour garantir qu'aucune collision n'est possible le long de la trajectoire entière, pas seulement aux échantillons testés. Les régions et les mouvements candidats sont stockés dans un graphe mis à jour de façon incrémentale pour permettre une planification en temps réel. Ce travail s'inscrit dans un champ de recherche en robotique très actif : rendre les robots capables de naviguer de façon fiable dans des espaces non structurés, comme des entrepôts, des zones sinistrées ou des environnements urbains denses. Les approches classiques de planification de trajectoire peinent encore dans les passages étroits, un goulot d'étranglement critique pour les applications industrielles et de sauvetage. En démontrant la méthode à la fois sur un robot à pattes et un drone, les auteurs signalent une ambition de généralisation au-delà d'une plateforme unique. La mise en open source ouvre la voie à des intégrations dans des piles robotiques existantes comme ROS.

RobotiqueOpinion
1 source
Invariance positive de la vitesse air pour les aéronefs à voilure fixe sans motorisation
392arXiv cs.RO 

Invariance positive de la vitesse air pour les aéronefs à voilure fixe sans motorisation

Des chercheurs en robotique aérienne ont publié sur arXiv une étude portant sur la protection automatique de la vitesse air pour les avions à voilure fixe sans motorisation. Le problème central : lorsqu'un aéronef perd sa propulsion, la seule façon de réguler la vitesse air est d'échanger de l'énergie potentielle contre de l'énergie cinétique, c'est-à-dire de jouer sur l'altitude. Dans ce régime, les commandes de trajectoire deviennent critiques, surtout en présence de vent. Les auteurs proposent un cadre mathématique fondé sur la théorie de la viabilité et la condition de tangence de Nagumo pour dériver, sous forme analytique fermée, l'ensemble des commandes d'angle de trajectoire admissibles garantissant que la vitesse air reste dans une enveloppe sûre quelle que soit la direction du vent. L'enjeu opérationnel est considérable. Les drones à voilure fixe sont de plus en plus utilisés dans des missions de surveillance, de livraison ou de gestion d'urgence, et les scénarios de panne moteur doivent être anticipés. Une vitesse air trop faible provoque un décrochage, trop élevée entraîne des contraintes structurelles dangereuses. En intégrant ces contraintes directement au niveau guidage, via un programme quadratique résolu hors ligne, l'approche certifie des primitives de manœuvre sûres avant même le vol, sans calcul embarqué coûteux. Les simulations sur un modèle haute fidélité d'aéronef en vol plané, constitué de séquences de ces primitives certifiées, démontrent un respect strict des bornes de vitesse air dans toutes les conditions testées. Ce travail s'inscrit dans une dynamique plus large d'autonomisation des systèmes aériens non habités, des petits UAS aux véhicules de mobilité aérienne avancée. La réglementation et la certification de ces appareils exigent des garanties formelles de sécurité, que les approches heuristiques ne peuvent pas offrir. En appliquant des outils d'analyse de systèmes dynamiques issus du contrôle optimal, l'équipe fournit des preuves mathématiques plutôt que de simples validations empiriques. Les auteurs prévoient d'étendre l'approche aux champs de vent variables dans le temps et de valider les résultats lors d'expériences en vol réel.

UECette approche de certification formelle des garanties de sécurité pour drones en vol plané pourrait faciliter la conformité avec les exigences réglementaires de l'EASA pour les systèmes UAS opérant en Europe.

RobotiqueActu
1 source
SwarmDrive : coordination sémantique V2V pour la conduite autonome coopérative en temps contraint
393arXiv cs.RO 

SwarmDrive : coordination sémantique V2V pour la conduite autonome coopérative en temps contraint

Des chercheurs ont présenté SwarmDrive, un système de coordination sémantique véhicule-à-véhicule (V2V) pensé pour la conduite autonome sous contrainte de latence. Chaque véhicule du réseau embarque un petit modèle de langage local (SLM) et ne partage ses intentions avec les véhicules voisins que lorsque son niveau d'incertitude dépasse un seuil défini, limitant ainsi les échanges au strict nécessaire. Les données partagées sont fusionnées via un mécanisme de consensus déclenché par événement. Dans une étude en cinq configurations autour d'un scénario d'intersection obstruée, le système en mode 6G a porté le taux de succès de 68,9 % à 94,1 % par rapport à un SLM local seul. La latence chute dans le même temps de 510 ms (référence cloud) à 151,4 ms. Les performances optimales ont été mesurées avec un essaim de 4 véhicules actifs et un seuil d'entropie de 0,65 ; au-delà, la charge réseau et les pertes de paquets augmentent sensiblement. Ces résultats s'attaquent à un problème central de la conduite autonome : les modèles hébergés dans le cloud sont puissants mais introduisent des délais incompatibles avec des décisions de sécurité en temps réel, tandis que les modèles locaux peinent à raisonner correctement face aux angles morts physiques. SwarmDrive propose une troisième voie, coopérative, où plusieurs véhicules proches mutualisent leur intelligence de façon légère et ciblée, sans dépendre d'une connexion permanente à un serveur distant. Pour les constructeurs et les développeurs de systèmes ADAS, c'est une approche prometteuse pour naviguer dans des environnements urbains complexes où les occultations sont fréquentes. La coordination véhicule-à-véhicule n'est pas nouvelle, au coeur de standards comme le C-V2X, mais l'intégration de modèles de langage dans la boucle de décision embarquée en renouvelle les usages. SwarmDrive mise sur deux tendances convergentes : la miniaturisation des modèles IA et les promesses de la 6G en matière de latence ultra-faible. Les auteurs préviennent toutefois que l'étude reste un prototype sur un scénario unique, et non une validation de déploiement réel sur une infrastructure 6G opérationnelle. L'étape suivante sera de tester la robustesse du système dans des environnements plus variés et avec des flottes plus denses, où la scalabilité de la communication deviendra un obstacle critique.

UELes constructeurs automobiles européens (Renault, Stellantis) et les acteurs du standard C-V2X pourraient s'appuyer sur cette approche pour renforcer la coopération embarquée dans leurs prototypes de véhicules autonomes, notamment dans le cadre des programmes 6G européens.

RobotiquePaper
1 source
Décision interactive pour la conduite autonome par grands modèles de langage
394arXiv cs.RO 

Décision interactive pour la conduite autonome par grands modèles de langage

Des chercheurs ont publié sur arXiv un nouveau cadre de prise de décision pour véhicules autonomes, conçu spécifiquement pour les situations de trafic mixte à forte densité où coexistent voitures humaines et autonomes. Le système exploite les grands modèles de langage non pour générer du texte, mais pour analyser dynamiquement la scène routière et inférer les intentions des autres usagers. Il repose sur l'Object-Process Methodology (OPM), qui traduit les données perceptuelles brutes en objets, processus et relations compréhensibles par le modèle. Celui-ci identifie ensuite les intentions explicites et implicites des véhicules voisins, génère des trajectoires candidates par échantillonnage Monte Carlo, et sélectionne la trajectoire optimale sous contraintes conjointes de sécurité et d'efficacité. La décision finale est retranscrite en langage naturel et diffusée aux autres usagers via une interface homme-machine externe (eHMI). Testé dans un simulateur de conduite en convoi, le système surpasse les approches traditionnelles sur les critères de sécurité, confort et fluidité, et un test de style Turing révèle une forte ressemblance avec les comportements humains au volant. Ce travail s'attaque à l'un des principaux freins à l'adoption des véhicules autonomes : leur tendance aux comportements excessivement prudents dans les situations conflictuelles, qui génèrent blocages et méfiance du public. En dotant le véhicule d'une capacité de lecture des intentions des autres conducteurs et d'une communication proactive en langage naturel, le cadre proposé change la nature de l'interaction : il ne s'agit plus seulement d'éviter les accidents, mais d'expliquer en temps réel les décisions du robot pour instaurer une confiance partagée avec les piétons, cyclistes et automobilistes environnants. La conduite autonome en environnement mixte reste l'un des défis les plus complexes du secteur, au croisement de la robotique, des sciences cognitives et de l'IA générative. Des acteurs comme Waymo ou Mobileye investissent massivement dans ces problèmes d'interaction homme-machine. L'intégration des LLMs dans la boucle de décision en temps réel représente une direction émergente : elle permet d'exploiter le raisonnement de sens commun de ces modèles sans avoir à coder explicitement chaque scénario possible. Encore limité à la simulation, le système devra prouver sa robustesse et sa faible latence en conditions réelles, mais les auteurs y voient une voie crédible vers une conduite autonome réellement interactive et digne de confiance dans un trafic dense.

RobotiquePaper
1 source
Un robot hybride roues-jambes reconfiguré pour une meilleure maniabilité et adaptabilité
395arXiv cs.RO 

Un robot hybride roues-jambes reconfiguré pour une meilleure maniabilité et adaptabilité

Des chercheurs ont présenté FLORES, un nouveau robot à roues et pattes dont la conception mécanique originale vise à dépasser les limites des plateformes hybrides existantes. La particularité de FLORES réside dans la configuration de ses pattes avant : là où la plupart des robots de ce type utilisent un degré de liberté en roulis (hip-roll) pour l'articulation de la hanche, FLORES le remplace par un degré de liberté en lacet (hip-yaw). Ce changement en apparence subtil modifie profondément la manière dont le robot oriente ses roues et coordonne ses mouvements, permettant des transitions fluides entre locomotion sur roues et locomotion sur pattes selon la nature du terrain rencontré. Cet ajustement mécanique apporte des gains concrets en matière de maniabilité et d'efficacité énergétique. Sur sol plat, le robot peut rouler de façon optimisée grâce à une meilleure orientation des roues, comparable à une direction avant pilotée. Sur terrain accidenté, les pattes reprennent le dessus avec l'agilité nécessaire pour franchir obstacles et irrégularités. Pour exploiter pleinement ces capacités, l'équipe a développé un contrôleur par apprentissage par renforcement (RL), en adaptant le cadre Hybrid Internal Model (HIM) avec une structure de récompenses taillée sur mesure pour la configuration mécanique unique de FLORES. Le résultat est un système capable de générer des allures de locomotion inédites, tirant simultanément parti des deux modes de déplacement. Les robots à roues et pattes constituent un axe de recherche actif en robotique mobile, portés par la demande croissante pour des plateformes capables d'évoluer dans des environnements non structurés, que ce soit en logistique, en inspection industrielle ou en interventions d'urgence. La plupart des designs existants peinent à exploiter pleinement les avantages des deux modes sans compromis importants sur l'un ou l'autre. FLORES s'inscrit dans cette dynamique en proposant une architecture repensée dès la conception mécanique, plutôt qu'en cherchant à compenser par le seul logiciel. Le projet est publié en open source sur GitHub, ce qui ouvre la voie à des expérimentations et adaptations par la communauté robotique.

RobotiqueOpinion
1 source
Cartographie structurelle adaptée aux passages pour le SLAM visuel RGB-D
396arXiv cs.RO 

Cartographie structurelle adaptée aux passages pour le SLAM visuel RGB-D

Des chercheurs ont publié une nouvelle approche de cartographie structurelle pour les systèmes de navigation robotique intérieure, baptisée "passage-aware structural mapping". Présentée dans un article soumis sur arXiv (identifiant 2604.24707), cette méthode s'intègre dans les frameworks de SLAM visuel RGB-D, qui permettent à un robot de se localiser et de construire une carte de son environnement en temps réel à partir d'une caméra de profondeur. Le système détecte automatiquement les portes et ouvertures traversables en combinant trois types d'informations : géométrique (la forme et la position des surfaces), sémantique (la nature des objets reconnus) et topologique (les relations entre les espaces). Les portes sont modélisées comme des entités planes insérées dans des murs, puis classées comme franchissables ou non selon leur coplanarité avec la paroi d'appui. La méthode a été intégrée dans le framework vS-Graphs à titre de preuve de concept, et le code source est librement accessible sur GitHub. Cette avancée répond à un angle mort persistant dans la robotique d'intérieur : les systèmes de cartographie existants gèrent bien les murs et les obstacles, mais ignorent largement les ouvertures, pourtant essentielles pour qu'un robot comprenne qu'il peut passer d'une pièce à une autre. En modélisant explicitement les passages traversables, le système enrichit le graphe de scène du robot avec des abstractions de niveau "passage", ce qui améliore la modélisation de la connectivité entre pièces. Concrètement, cela ouvre la voie à des robots de service, des aspirateurs autonomes ou des systèmes de livraison intérieure capables de naviguer dans des bâtiments complexes de manière bien plus fiable qu'aujourd'hui. Le SLAM visuel est un domaine de recherche mature, mais son intégration avec la compréhension sémantique des bâtiments reste un chantier ouvert. Les auteurs s'appuient sur deux stratégies complémentaires pour inférer les passages : l'accumulation d'indices de traversée lors des interactions caméra-mur entre keyframes successives, et la validation géométrique des ouvertures par discontinuités dans la géométrie des murs cartographiés. Les évaluations qualitatives sur des séquences de bureaux intérieurs montrent une détection fiable des ouvertures. L'équipe mentionne explicitement le BIM (Building Information Modeling) comme perspective d'application, suggérant une future convergence entre la robotique autonome et les jumeaux numériques de bâtiments.

RobotiqueOpinion
1 source
Exploration collaborative décentralisée par robots hétérogènes en environnements 3D intérieurs et extérieurs
397arXiv cs.RO 

Exploration collaborative décentralisée par robots hétérogènes en environnements 3D intérieurs et extérieurs

Des chercheurs ont publié sur arXiv (référence 2604.23693) un nouveau cadre logiciel décentralisé permettant à des équipes de robots hétérogènes d'explorer de manière autonome des environnements 3D complexes, aussi bien en intérieur qu'en extérieur. Le système repose sur trois briques techniques principales : une carte de perception qui fusionne les données de terrain et d'observation, une segmentation par supervoxels améliorée qui simplifie la représentation de l'espace pour réduire la charge de communication, et un algorithme génétique optimisé pour résoudre ce que les auteurs formalisent comme un problème de type "voyageur de commerce multi-dépôts hétérogène" (HMDMTSP). Concrètement, chaque robot évalue les zones non encore cartographiées, les tâches sont regroupées selon les capacités de chaque machine, puis les conflits de trajectoires entre robots sont résolus en temps réel. Des tests en simulation et sur le terrain, dans des environnements encombrés, démontrent une efficacité d'exploration et des économies de bande passante supérieures aux approches actuellement considérées comme références. L'enjeu pratique est considérable pour des secteurs comme la recherche et le sauvetage, l'inspection industrielle ou la cartographie de zones dangereuses. Associer des robots aux capacités différentes, un drone aérien et un robot terrestre, par exemple, permet de couvrir des espaces que ni l'un ni l'autre ne pourrait explorer seul. Le cadre décentralisé signifie qu'aucun nœud central ne coordonne l'ensemble : chaque robot prend ses décisions localement, ce qui rend le système résilient aux pannes et scalable sans refonte architecturale. La robotique multi-agents hétérogène est un champ de recherche en pleine effervescence, porté par la maturité croissante des capteurs embarqués et des modèles de planification. Jusqu'ici, la plupart des approches supposaient des flottes homogènes ou nécessitaient une communication centralisée intensive, deux contraintes qui limitent leur déploiement réel. Ce travail s'inscrit dans une tendance plus large visant à rapprocher la robotique autonome des conditions du monde réel, où les équipements sont hétérogènes, la connectivité intermittente et les environnements imprévisibles. Les suites naturelles incluent l'intégration de modèles de perception plus riches, comme la vision 3D profonde, et le test à plus grande échelle avec des flottes de cinq robots ou plus.

RobotiqueOpinion
1 source
Surveillance d'environnements intérieurs dynamiques par apprentissage par renforcement multi-agents
398arXiv cs.RO 

Surveillance d'environnements intérieurs dynamiques par apprentissage par renforcement multi-agents

Des chercheurs ont publié sur arXiv un système de surveillance d'intérieurs basé sur des équipes de robots mobiles pilotées par apprentissage par renforcement multi-agents (MARL). Le principe : plusieurs robots autonomes se coordonnent en temps réel pour observer les déplacements humains dans un bâtiment, sans contrôleur central. Chaque robot prend ses décisions à partir de ses seules observations locales, dans un cadre dit décentralisé. Les simulations ont couvert des environnements intérieurs variés et plusieurs types de tâches de surveillance, avec des équipes dont la composition en nombre d'humains observés varie dynamiquement. Ce travail s'attaque à un angle mort des approches robotiques classiques : les algorithmes de couverture de surface ou de visite périodique optimisent le déplacement des robots, pas la qualité réelle de l'observation. Pour des usages concrets comme la gestion de bâtiments, l'évaluation de la sécurité ou l'analyse de l'occupation des espaces, ce décalage est coûteux. Le système proposé aligne directement l'objectif d'entraînement sur la précision de la surveillance humaine, ce qui permet aux robots d'ajuster leur trajectoire pour maximiser la qualité d'information, y compris dans des scènes où le nombre de personnes change à l'improviste. Les résultats montrent des performances supérieures à tous les baselines testés, qu'ils soient classiques ou basés sur l'apprentissage. Ce type de travaux s'inscrit dans une tendance de fond : l'essor du MARL pour des problèmes de robotique coopérative où la coordination explicite est coûteuse ou impossible. Les environnements intérieurs dynamiques restent un défi ouvert pour la robotique autonome, en raison de l'imprévisibilité des comportements humains et des contraintes physiques des espaces. Les applications industrielles visées, de la logistique d'entrepôt à la sécurité des hôpitaux, représentent un marché en forte croissance. La prochaine étape naturelle sera le passage de la simulation au déploiement réel, où les bruits de capteurs, les occlusions physiques et la latence réseau mettront à l'épreuve la robustesse de ces politiques apprises.

UELes systèmes de surveillance autonome par robots entrent dans la catégorie à haut risque de l'AI Act européen, ce qui conditionnera les exigences de conformité pour tout déploiement commercial en UE.

RobotiqueOpinion
1 source
Les robots comme outils pour renforcer les liens entre familles et écoles
399arXiv cs.RO 

Les robots comme outils pour renforcer les liens entre familles et écoles

Des chercheurs ont présenté une étude explorant l'intégration d'un robot social dans des foyers familiaux pour renforcer les liens entre l'école et les parents. Publiée sur arXiv (référence 2604.23978), la recherche a suivi dix familles pendant une semaine chacune, dans leur domicile. Le système robotique, conçu à partir de sessions de co-design impliquant à la fois des parents et des enfants, était capable de soutenir diverses interactions, notamment des conversations sur la vie scolaire et les activités pédagogiques à la maison. L'équipe a mené des entretiens préliminaires pour identifier les obstacles concrets rencontrés par les familles avant de développer le prototype. Les résultats mettent en lumière plusieurs dynamiques importantes. Les familles ont progressivement intégré le robot dans leur quotidien, mais la manière dont les parents encadraient son utilisation variait fortement d'un foyer à l'autre, influençant directement la façon dont les enfants interagissaient avec l'appareil. Les familles ont reconnu son utilité pour maintenir un fil de communication autour des sujets scolaires, tout en identifiant des limites pratiques et des questions de confidentialité. Cette étude apporte ainsi des données empiriques rares sur les interactions enfant-robot et famille-robot en contexte réel, un terrain encore peu documenté dans la littérature sur la robotique sociale. Le manque de partenariat entre familles et établissements scolaires est un problème bien identifié dans les recherches en éducation : les contraintes de temps, la communication fragmentée et le faible sentiment d'appartenance freinent l'engagement parental. Face à ces barrières structurelles, les chercheurs voient dans les robots sociaux un levier potentiel pour faciliter ce lien sans alourdir la charge des enseignants ni des parents. L'étude ouvre un espace de conception plus large pour des technologies d'accompagnement éducatif, tout en appelant à une réflexion sérieuse sur la vie privée des enfants et les implications éthiques de l'introduction de dispositifs connectés au coeur de la cellule familiale.

RobotiqueOpinion
1 source
UniX AI renforce sa stratégie en robotique domestique et gagne en visibilité internationale
400Pandaily 

UniX AI renforce sa stratégie en robotique domestique et gagne en visibilité internationale

UniX AI, une entreprise chinoise de robotique fondée en 2024, attire une attention internationale croissante pour ses développements dans le domaine des robots humanoïdes. Son produit phare, le Wanda 2.0, est commercialisé à partir de 88 000 yuans (environ 12 000 dollars), et se distingue par ses deux bras robotiques et sa base mobile omnidirectionnelle, conçus pour accomplir des tâches concrètes dans des environnements domestiques et commerciaux. En l'espace de quelques mois seulement, la société a enchaîné les itérations produit et atteint une production ainsi qu'une livraison à petite échelle. Cette trajectoire s'inscrit dans un marché mondial en pleine explosion : selon les données sectorielles, les expéditions mondiales de robots humanoïdes ont atteint environ 18 600 unités en 2025, soit une croissance de plus de 500 % en un an. UniX AI se distingue d'une grande partie de ses concurrents en ciblant délibérément le segment des services domestiques, alors que la majorité des acteurs du secteur se concentrent sur les applications industrielles et logistiques. Ce positionnement est stratégique : les robots de service à domicile représentent encore un marché émergent, avec un potentiel de masse considérable si les obstacles à l'adoption sont levés. La Chine joue un rôle central dans cette dynamique, représentant une part significative de la demande mondiale et de la capacité des chaînes d'approvisionnement, certains fabricants étrangers sourçant jusqu'à 70 % de leurs composants auprès de fournisseurs chinois. La montée en puissance d'UniX AI reflète une transformation plus large du secteur robotique chinois, qui passe d'une position de sous-traitant à celle d'innovateur de premier plan. La société a été citée dans plusieurs médias internationaux et intégrée à des analyses globales du secteur, signe d'une reconnaissance croissante au-delà des frontières. Reste que l'adoption à grande échelle des robots domestiques demeure à valider : le passage du prototype livré en petite série à un déploiement de masse dans les foyers constitue le véritable défi des prochaines années pour l'ensemble de l'industrie.

RobotiqueOpinion
1 source