RobotiquearXiv cs.RO2h

Paramétrisations de croyances neuronales variationnelles pour une préhension dextre robuste sous incertitude multimodale

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2604.25897) une nouvelle approche pour améliorer la fiabilité de la préhension robotique en présence d'incertitudes multiples : variation des contacts entre les doigts et l'objet, imprécision des capteurs, et perturbations extérieures. Leur système, baptisé "variational neural belief", représente l'état d'incertitude du robot sous forme d'un mélange gaussien différentiable, combiné à une technique d'échantillonnage appelée Gumbel-Softmax. L'objectif n'est pas d'optimiser la performance moyenne, mais de minimiser le risque dans les scénarios les plus défavorables, via un indicateur statistique nommé CVaR (Conditional Value-at-Risk). En simulation, la méthode réduit le temps de planification d'un facteur dix par rapport aux approches à filtre particulaire, qui constituent l'état de l'art actuel. Sur un bras robotique réel équipé d'une main multi-doigts, le système réussit à saisir et soulever des objets en présence d'incertitudes de pose, en moins d'étapes et en moins de temps qu'une approche gaussienne classique. L'erreur de calibration du risque reste en dessous de 0,14, contre 0,58 pour un planificateur concurrent basé sur la méthode d'entropie croisée.

Ce résultat est important car la manipulation d'objets reste l'un des talons d'Achille de la robotique industrielle et domestique. Un robot qui calcule sa stratégie de saisie en se basant sur la performance moyenne échoue systématiquement dans les situations imprévues : surface glissante, légère erreur de positionnement, vibration. En passant à une optimisation orientée sur les cas extrêmes, cette approche rend la préhension robuste là où elle compte vraiment, sans sacrifier la vitesse de décision.

La robotique de manipulation est depuis des années un champ de recherche intense, notamment dans les laboratoires de DeepMind, OpenAI Robotics et Carnegie Mellon, ainsi qu'au sein de startups comme Figure et Apptronik. L'approche des POMDPs sensibles au risque existait déjà en théorie, mais les méthodes à filtres particulaires se révèlent trop lentes et trop difficiles à optimiser par gradient pour un usage pratique. En substituant une représentation différentiable et différentiable par conception, les auteurs ouvrent la voie à une intégration dans des pipelines d'apprentissage end-to-end, ce qui pourrait accélérer significativement le déploiement de robots manipulateurs autonomes dans des environnements non contrôlés.

Dans nos dossiers

OpenAI

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

HANDFUL : manipulation dextre séquentielle conditionnée par la préhension et les ressources disponibles

Des chercheurs ont publié le 29 avril 2026 sur arXiv un article présentant HANDFUL, un nouveau cadre d'apprentissage pour la manipulation dextère séquentielle par des robots à main articulée. L'idée centrale est de permettre à un robot d'effectuer plusieurs actions successives sur des objets, par exemple saisir un objet puis le pousser, le tirer ou appuyer dessus, sans relâcher sa prise initiale. Pour cela, HANDFUL modélise l'usage des doigts comme une ressource limitée et entraîne le robot à adopter des prises "économes" qui réservent des doigts disponibles pour les tâches suivantes. L'approche repose sur des récompenses de contact au niveau de chaque doigt et un apprentissage par curriculum. Les chercheurs ont également créé HANDFUL-Bench, un benchmark de simulation dédié aux tâches de manipulation dextère séquentielle sous contrainte de prise partagée, couvrant trois types de sous-tâches : pousser, tirer et presser. Le système a été validé en simulation et sur un robot physique équipé d'une main LEAP. Ce travail ouvre la voie à des robots capables de manipulations multitâches complexes, là où la quasi-totalité des recherches antérieures se limitait à des tâches mono-objet et mono-action. En pratique, la capacité à planifier une prise en anticipant les actions futures améliore significativement le taux de réussite des sous-tâches secondaires, ainsi que la robustesse globale du robot, par rapport à une approche naïve qui optimise chaque prise sans tenir compte de la suite. Pour l'industrie, cela représente une avancée concrète vers des bras robotiques capables d'enchaîner des gestes dans des environnements non structurés, comme l'assemblage, la logistique ou l'assistance à domicile. La manipulation dextère reste l'un des défis les plus difficiles de la robotique : les mains à plusieurs doigts sont mécaniquement complexes et difficiles à contrôler par apprentissage par renforcement. La plupart des approches existantes cherchent à optimiser une seule tâche à la fois, ignorant les contraintes imposées par les actions ultérieures. HANDFUL s'inscrit dans une tendance émergente qui pousse les robots vers une planification holistique de leurs ressources motrices. Les prochaines étapes naturelles incluront l'extension à des chaînes de tâches plus longues et à des objets plus variés, ainsi que le transfert depuis la simulation vers des robots réels dans des conditions non contrôlées.

RobotiqueActu

1 source

2arXiv cs.RO

SODA-CitrON : association de données d'objets statiques par regroupement de détections multimodales en ligne

Des chercheurs ont publié sur arXiv une nouvelle méthode baptisée SODA-CitrON (Static Object Data Association by Clustering Multi-Modal Sensor Detections Online), conçue pour améliorer la fusion et le suivi d'objets statiques à partir de capteurs hétérogènes en temps réel. L'approche repose sur un algorithme d'apprentissage automatique non supervisé capable de regrouper des détections issues de plusieurs types de capteurs, afin d'estimer les positions d'objets immobiles et de maintenir un suivi persistant, même lorsque le nombre d'objets à détecter n'est pas connu à l'avance. Évaluée dans des scénarios de simulation Monte Carlo, la méthode affiche une complexité au pire cas log-linéaire en fonction du nombre de détections, garantissant une scalabilité applicable à des environnements denses. Les résultats sont significatifs : SODA-CitrON surpasse systématiquement les méthodes de référence testées, parmi lesquelles le filtrage basé sur POM (Probabilistic Occupancy Map), le clustering DBSTREAM et l'algorithme JPDA (Joint Probabilistic Data Association), sur quatre métriques clés : le score F1, l'erreur quadratique moyenne de position (RMSE), le MOTP (Multi-Object Tracking Precision) et le MOTA (Multi-Object Tracking Accuracy). Pour les systèmes autonomes comme les voitures sans conducteur ou les robots industriels, la capacité à cartographier précisément des objets fixes, tels que des panneaux de signalisation, des bornes ou des obstacles permanents, est aussi critique que le suivi de cibles mobiles, mais bien moins étudiée jusqu'ici. Le problème de l'association de données pour objets statiques est longtemps resté dans l'ombre des méthodes classiques pensées pour des cibles en mouvement. Les algorithmes comme JPDA supposent des modèles de déplacement qui perdent toute pertinence face à des objets immobiles détectés de façon intermittente et avec des incertitudes variables selon les capteurs. SODA-CitrON répond à ce manque en opérant de manière entièrement en ligne, sans corrélation temporelle requise entre les mesures, et en offrant une explicabilité complète de ses sorties, un atout non négligeable pour la certification de systèmes critiques dans des contextes réglementés. Cette publication, versionnée v2 sur arXiv sous l'identifiant 2602.22243, ouvre la voie à des intégrations pratiques dans des architectures de perception embarquée pour la robotique et la conduite autonome.

UELes équipementiers et constructeurs automobiles européens spécialisés dans la perception embarquée et les systèmes ADAS pourraient intégrer cette méthode pour améliorer le suivi d'objets statiques dans leurs architectures de conduite autonome.

RobotiquePaper

1 source

3arXiv cs.RO

U-ViLAR : localisation visuelle intégrant l'incertitude pour la conduite autonome par association et recalage différentiables

Des chercheurs ont présenté U-ViLAR, un nouveau système de localisation visuelle conçu pour les véhicules autonomes, capable de fonctionner avec précision là où le GPS devient peu fiable. Dans les environnements urbains denses, les immeubles et chantiers de construction dégradent fortement la qualité du signal GNSS, rendant les systèmes de navigation classiques insuffisants. U-ViLAR contourne ce problème en exploitant uniquement des données visuelles, qu'il projette dans un espace dit "Bird's-Eye-View" (vue à vol d'oiseau) pour les aligner avec des cartes haute définition ou des cartes de navigation standard. Le système intègre deux modules clés : une association guidée par l'incertitude perceptive, qui filtre les erreurs liées à l'interprétation de la scène visuelle, et un recalage guidé par l'incertitude de localisation, qui affine la position estimée. Les résultats expérimentaux indiquent que cette approche atteint des performances à l'état de l'art sur plusieurs benchmarks de localisation, et le modèle a été testé à grande échelle sur des flottes de véhicules autonomes en conditions urbaines réelles. Cette avancée est directement pertinente pour l'industrie du véhicule autonome, qui bute depuis des années sur la fiabilité de la localisation dans les villes. Un taxi robot ou un camion de livraison autonome qui perd son signal GPS en passant sous un viaduc ou entre deux rangées de gratte-ciels peut commettre des erreurs fatales. En combinant localisation grossière à grande échelle et recalage fin de haute précision dans un seul cadre différentiable, U-ViLAR offre une robustesse accrue sans nécessiter un matériel GPS de haute gamme. La compatibilité avec les cartes de navigation ordinaires, pas seulement les cartes HD coûteuses, pourrait abaisser significativement la barrière à l'adoption pour les constructeurs. La localisation visuelle pour la conduite autonome est un champ de recherche très actif, notamment depuis que les limites du GPS en milieu urbain sont devenues un verrou industriel reconnu. Des acteurs comme Waymo, Mobileye ou les équipes de recherche de Baidu ont tous investit dans des approches alternatives, combinant LiDAR, caméras et cartes vectorielles. U-ViLAR se distingue par son traitement explicite de l'incertitude à chaque étape du pipeline, une approche plus prudente que les méthodes déterministes. La prochaine étape probable pour ces travaux sera une intégration dans des architectures de conduite autonome de niveau 4, où la précision de localisation conditionne directement la sécurité du système.

UECette avancée en localisation visuelle sans GPS pourrait accélérer le déploiement de véhicules autonomes dans les villes européennes denses, où les contraintes réglementaires (règlement européen sur les systèmes de conduite automatisée) exigent une haute fiabilité de localisation indépendante du signal satellitaire.

RobotiquePaper

1 source

4arXiv cs.RO

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle

Des chercheurs ont publié VTOUCH, un nouveau jeu de données multimodal conçu pour améliorer la manipulation bimanuelles des robots, c'est-à-dire la capacité d'un robot à utiliser deux bras de manière coordonnée. Présenté sur arXiv (référence 2604.20444), ce dataset combine des capteurs tactiles basés sur la vision pour fournir des signaux d'interaction physique haute fidélité. Concrètement, ces capteurs permettent au robot de "sentir" les contacts et pressions lors de tâches complexes, comme assembler un objet ou manipuler des matériaux fragiles. La collecte des données s'appuie sur des pipelines automatisés couvrant des scénarios réels orientés par la demande, et l'organisation des tâches suit une structure matricielle pensée pour faciliter l'apprentissage systématique à grande échelle. La manipulation bimanualle reste l'un des défis les plus ardus de la robotique incarnée, notamment parce que les tâches à fort contact physique exigent une coordination fine et des retours sensoriels précis que les datasets existants ne capturent pas suffisamment. VTOUCH répond directement à ce manque en intégrant des signaux tactiles riches là où la plupart des jeux de données se limitent à la vision ou aux données proprioceptives. Les expériences quantitatives menées sur la récupération cross-modale, ainsi que les évaluations sur robots réels, confirment l'efficacité du dataset. Plus important encore, les chercheurs ont démontré que les politiques entraînées sur VTOUCH se généralisent à plusieurs types de robots et plusieurs types de tâches, ce qui en fait un outil potentiellement mutualisable à travers l'industrie. La robotique incarnée connaît une accélération notable depuis l'essor des grands modèles de langage et vision, des acteurs comme Google DeepMind, Figure AI ou Physical Intelligence investissant massivement dans des robots capables d'opérer dans des environnements non structurés. La manipulation bimanualle est un goulot d'étranglement reconnu : même les systèmes les plus avancés peinent à égaler la dextérité humaine dans des tâches d'assemblage ou de cuisine. VTOUCH s'inscrit dans une tendance plus large de constitution de datasets spécialisés de grande échelle, à l'image d'Open X-Embodiment, pour accélérer l'entraînement de politiques robotiques généralisables. La prochaine étape sera de voir si ce dataset est rendu public et adopté par la communauté au-delà du laboratoire d'origine.

RobotiqueActu

1 source