Aller au contenu principal
MATT-Diff : suivi actif de cibles multimodal par politique de diffusion
RecherchearXiv cs.RO2h

MATT-Diff : suivi actif de cibles multimodal par politique de diffusion

1 source couvre ce sujet·Source originale ↗·

Des chercheurs du laboratoire CINAPS ont publié MATT-Diff, un système de contrôle permettant à un agent mobile autonome de pister plusieurs cibles simultanément dans des environnements inconnus. Présenté dans un article arXiv (2511.11931), le système repose sur une politique de diffusion, une approche inspirée des modèles génératifs d'images, pour piloter le comportement de l'agent selon trois modes distincts : exploration de zones inconnues, suivi de cibles détectées, et réacquisition de cibles perdues. L'ensemble du système fonctionne sans connaissance préalable du nombre de cibles, de leurs positions ou de leurs dynamiques de déplacement.

Ce qui distingue MATT-Diff des approches existantes, c'est sa capacité à gérer le compromis fondamental en robotique de surveillance : quand explorer pour trouver des cibles encore inconnues, et quand exploiter l'information déjà disponible pour réduire l'incertitude sur les cibles déjà repérées. Le modèle utilise un vision transformer pour tokeniser les cartes égocentrées de l'agent, et un mécanisme d'attention pour intégrer des estimations variables des cibles représentées sous forme de densités gaussiennes. Entraîné comme un modèle de diffusion, il apprend à générer des séquences d'actions multimodales via un processus de débruitage, ce qui lui permet d'adopter des comportements variés face à une même situation, là où les politiques classiques produiraient une seule réponse déterministe.

Pour constituer les données d'entraînement, les chercheurs ont combiné les démonstrations de trois planificateurs experts distincts : un planificateur à base de frontières pour l'exploration, un planificateur hybride basé sur l'incertitude alternant entre exploration et suivi via l'algorithme RRT*, et un planificateur hybride temporel déclenchant la réacquisition selon le temps écoulé depuis la dernière détection. Cette diversité des sources d'apprentissage explique la richesse comportementale du système final. Les évaluations montrent des performances supérieures aux autres baselines d'apprentissage dans des environnements inédits. Le code est disponible publiquement sur GitHub, ouvrant la voie à des applications en surveillance autonome, recherche et sauvetage, ou gestion de drones en milieu complexe.

À lire aussi

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions
1arXiv cs.RO 

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions

Des chercheurs ont publié SpaCeFormer, un nouveau modèle de segmentation d'instances 3D en vocabulaire ouvert capable d'analyser une scène entière en seulement 0,14 seconde, soit 100 à 1000 fois plus vite que les pipelines existants combinant vision 2D et reconstruction 3D. Le modèle repose sur un transformeur dit « space-curve » sans proposition préalable, qui combine une attention par fenêtres spatiales avec une sérialisation via la courbe de Morton pour produire des caractéristiques cohérentes dans l'espace. Un décodeur amélioré par RoPE prédit ensuite directement les masques d'instances à partir de requêtes apprises, sans faire appel à des propositions de régions externes. Pour l'entraîner, les auteurs ont constitué SpaCeFormer-3M, le plus grand jeu de données de segmentation 3D en vocabulaire ouvert jamais créé : 3 millions de légendes cohérentes sur plusieurs vues, couvrant 604 000 instances issues de 7 400 scènes. Ce dataset atteint un rappel de masques 21 fois supérieur aux approches monovues précédentes, soit 54,3 % contre 2,5 % à un seuil IoU supérieur à 0,5. Les performances obtenues sur les benchmarks de référence illustrent un saut qualitatif significatif. Sur ScanNet200, SpaCeFormer atteint un score mAP zero-shot de 11,1, soit 2,8 fois mieux que la meilleure méthode sans proposition antérieure. Sur ScanNet++ et Replica, il dépasse respectivement 22,9 et 24,1 mAP, surpassant tous les modèles précédents y compris ceux exploitant des entrées 2D multi-vues. Cette combinaison de vitesse et de précision ouvre la voie à des applications temps réel dans des environnements non structurés, où les catégories d'objets ne peuvent pas être définies à l'avance. La segmentation d'instances 3D en vocabulaire ouvert est une brique fondamentale pour la robotique autonome et la réalité augmentée ou virtuelle : un robot ou un casque AR doit pouvoir identifier et délimiter n'importe quel objet dans une scène, même inconnu. Les méthodes antérieures souffraient soit d'une latence prohibitive liée à l'agrégation de sorties de modèles fondationnaux sur plusieurs centaines de secondes, soit d'une fragmentation des masques due à l'absence de cohérence multi-vues. SpaCeFormer résout les deux verrous simultanément, et la mise à disposition publique du dataset SpaCeFormer-3M devrait accélérer les travaux de la communauté sur ce problème.

RecherchePaper
1 source
Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs
2arXiv cs.RO 

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

Une équipe de chercheurs a publié une nouvelle méthode d'apprentissage par renforcement baptisée Occupancy Reward Shaping (ORS), conçue pour résoudre l'un des problèmes les plus tenaces du domaine : l'attribution du crédit. Dans les environnements à récompenses rares, un agent autonome peut enchaîner des dizaines d'actions avant d'obtenir un signal de succès ou d'échec, ce qui rend extrêmement difficile l'identification des décisions qui ont réellement conduit au résultat. L'article, publié sur arXiv sous la référence 2604.20627, propose d'extraire la géométrie temporelle du monde à partir de modèles génératifs, puis de la convertir en une fonction de récompense auxiliaire via le transport optimal. Appliquée à 13 tâches de locomotion et de manipulation à long horizon, ORS améliore les performances de 2,2 fois en moyenne par rapport aux approches existantes. La méthode a également été testée sur un problème réel et exigeant : le contrôle du plasma dans trois configurations de réacteur à fusion nucléaire de type Tokamak. L'impact potentiel de cette avancée est significatif pour tous les systèmes autonomes qui doivent apprendre à partir de données collectées offline, c'est-à-dire sans interaction en temps réel avec l'environnement. Les robots industriels, les systèmes de planification médicale ou les agents de contrôle de processus physiques complexes sont directement concernés. La garantie théorique centrale d'ORS, que le remodelage de la récompense ne modifie pas la politique optimale, est cruciale : elle signifie que la méthode accélère l'apprentissage sans introduire de biais ou de comportements indésirables, ce qui est un prérequis pour toute application dans des contextes à risque élevé comme la fusion nucléaire. L'attribution du crédit temporel est un problème fondamental de l'apprentissage par renforcement depuis ses origines, et de nombreuses approches ont tenté de le contourner via des récompenses intermédiaires conçues à la main ou des architectures récurrentes. ORS se distingue en exploitant les modèles de monde génératifs, qui connaissent un regain d'intérêt depuis les travaux de DeepMind et d'autres laboratoires sur la planification basée sur des modèles. En combinant ces modèles avec le transport optimal, un outil mathématique issu de la théorie de la mesure, les auteurs ouvrent une voie systématique pour encoder la structure géométrique de n'importe quel environnement. Le code source est disponible publiquement sur GitHub, ce qui facilitera l'adoption et les travaux de réplication dans la communauté.

UELa méthode ORS, validée sur des réacteurs Tokamak, pourrait intéresser le projet ITER hébergé à Cadarache (France), principal programme mondial de fusion nucléaire financé par l'UE.

RecherchePaper
1 source
Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points
3arXiv cs.RO 

Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points

Des chercheurs ont publié sur arXiv une nouvelle méthode de détection de fermeture de boucle pour les robots mobiles autonomes équipés de capteurs LiDAR, sous le nom de code MapClosures. Le système résout un problème fondamental de la cartographie robotique : lorsqu'un robot repasse par un endroit déjà visité, il doit reconnaître ce lieu et corriger l'accumulation d'erreurs de positionnement, un phénomène appelé dérive globale. La pipeline présentée génère des cartes locales à partir des nuages de points LiDAR, les aligne avec un module dédié à la gestion du terrain, puis produit des projections à vue aérienne en préservant la densité des points. Des descripteurs de caractéristiques ORB sont extraits de ces projections et stockés dans un arbre de recherche binaire pour accélérer les requêtes. Un mécanisme d'élagage par auto-similarité permet d'éviter les faux positifs dans les environnements répétitifs, comme des couloirs ou des rangées d'arbres. Le code source est disponible en open source sur GitHub, dans le dépôt PRBonn/MapClosures. L'impact de cette approche est particulièrement significatif pour les applications de robotique en extérieur, livraison autonome, inspection industrielle, véhicules tout-terrain, où la précision cartographique sur de longues distances est critique. Contrairement à de nombreuses solutions existantes qui dépendent d'un type précis de capteur ou d'un profil de mouvement spécifique, MapClosures fonctionne avec des LiDAR aux résolutions, champs de vision et patterns de scan très différents. Cela réduit considérablement les coûts d'intégration pour les équipes qui changent de matériel ou déploient plusieurs types de robots sur un même système. Le SLAM (Simultaneous Localization and Mapping) est un défi ouvert depuis plusieurs décennies en robotique, et la fermeture de boucle en est l'un des maillons les plus fragiles, surtout en environnements non structurés. Les travaux proviennent du laboratoire PRBonn, associé à l'Université de Bonn, acteur reconnu dans la recherche en perception robotique. En rendant la méthode agnostique au capteur et en publiant le code librement, les auteurs visent une adoption large dans la communauté académique et industrielle. Les prochaines étapes pourraient inclure l'intégration avec des systèmes de fusion multi-capteurs et des tests à plus grande échelle dans des environnements dynamiques urbains.

UEIssu du laboratoire PRBonn de l'Université de Bonn (Allemagne), ce travail open source renforce la compétitivité européenne en robotique mobile et peut bénéficier directement aux équipes françaises et européennes développant des robots autonomes ou des véhicules LiDAR.

RechercheActu
1 source
Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires
4arXiv cs.RO 

Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires

Des chercheurs ont publié sur arXiv un nouveau cadre d'apprentissage par renforcement basé sur un modèle, conçu pour contrôler de manière optimale des systèmes robotiques non linéaires. L'approche repose sur la théorie de l'opérateur de Koopman, un outil mathématique qui permet de représenter des dynamiques non linéaires complexes sous une forme linéaire dans un espace de dimension supérieure. Ce modèle linéarisé est ensuite intégré dans une architecture acteur-critique classique afin d'optimiser la politique de contrôle. Pour limiter les coûts de calcul et éviter l'accumulation d'erreurs lors des simulations en plusieurs étapes, les gradients de politique sont estimés à partir de prédictions à un seul pas de temps, ce qui permet un entraînement en ligne sur des mini-lots de données issues d'interactions en continu. Le cadre a été évalué sur plusieurs benchmarks de contrôle simulés ainsi que sur deux plateformes matérielles réelles : un bras robotique Kinova Gen3 et un robot quadrupède Unitree Go1. Les résultats expérimentaux montrent que cette approche surpasse les méthodes d'apprentissage par renforcement sans modèle en termes d'efficacité d'échantillonnage, tout en offrant de meilleures performances de contrôle que les méthodes par renforcement basées sur un modèle classiques. Elle atteint même un niveau comparable aux méthodes de contrôle traditionnel qui nécessitent une connaissance exacte des dynamiques du système, un avantage considérable, car ces connaissances sont rarement disponibles dans des applications réelles. La robotique reste l'un des terrains les plus exigeants pour l'apprentissage automatique : les systèmes physiques sont non linéaires, les interactions avec le monde réel coûteuses, et les erreurs de modèle peuvent endommager le matériel. L'opérateur de Koopman suscite depuis plusieurs années un intérêt croissant dans la communauté du contrôle automatique, précisément parce qu'il permet de réconcilier la puissance expressive des modèles non linéaires avec la tractabilité des méthodes linéaires. En l'intégrant directement dans une boucle d'apprentissage par renforcement, ce travail ouvre la voie à des robots capables d'apprendre des comportements complexes avec moins d'essais et sans nécessiter un modèle analytique complet du système, une propriété clé pour le déploiement industriel à grande échelle.

RecherchePaper
1 source