Aller au contenu principal
AdaTracker : politique adaptative pour le suivi visuel actif sur différents robots
RecherchearXiv cs.RO2sem

AdaTracker : politique adaptative pour le suivi visuel actif sur différents robots

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié le 29 avril 2026 sur arXiv un article présentant AdaTracker, un nouveau cadre d'apprentissage conçu pour résoudre un problème persistant en robotique : permettre à un seul modèle d'assurer le suivi visuel actif d'une cible sur des plateformes robotiques radicalement différentes. Aujourd'hui, chaque type de robot, qu'il s'agisse d'un drone, d'un bras manipulateur ou d'un robot mobile, requiert son propre modèle entraîné séparément, car les contraintes physiques et les dynamiques de mouvement varient considérablement d'une machine à l'autre. AdaTracker propose une architecture unifiée articulée autour de deux composants clés : un Embodiment Context Encoder, qui infère les contraintes spécifiques à chaque robot à partir de son historique de mouvements, et un Context-Aware Policy, qui ajuste dynamiquement les actions de contrôle en conséquence. Les expériences menées en simulation et dans le monde réel montrent que ce système surpasse les méthodes existantes en termes de généralisation inter-plateformes, d'efficacité d'échantillonnage et d'adaptation sans données d'entraînement préalables, ce que les chercheurs appellent l'adaptation zéro-shot.

L'enjeu est considérable pour l'industrie robotique : développer et maintenir des modèles distincts pour chaque morphologie de robot est coûteux, peu scalable et freine le déploiement à grande échelle. AdaTracker pourrait permettre à un seul modèle d'être déployé sur une flotte hétérogène de robots sans réentraînement, réduisant drastiquement les coûts de développement. La capacité d'adaptation zéro-shot est particulièrement significative : le système peut contrôler un robot qu'il n'a jamais vu auparavant, en inférant ses contraintes physiques uniquement à partir de quelques interactions récentes.

Ce travail s'inscrit dans une tendance de fond visant à construire des modèles fondationnels pour la robotique, à l'image de ce que des projets comme RT-2 de Google ou OpenVLA ont tenté pour la manipulation. Le suivi visuel actif, capacité fondamentale pour les drones de surveillance, les robots d'inspection ou les systèmes de sécurité, reste un défi technique non résolu dans sa dimension multi-plateforme. AdaTracker ouvre une voie vers des systèmes robotiques plus généraux et plus facilement transférables, une priorité alors que les déploiements industriels de robots diversifiés s'accélèrent.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

MATT-Diff : suivi actif de cibles multimodal par politique de diffusion
1arXiv cs.RO 

MATT-Diff : suivi actif de cibles multimodal par politique de diffusion

Des chercheurs du laboratoire CINAPS ont publié MATT-Diff, un système de contrôle permettant à un agent mobile autonome de pister plusieurs cibles simultanément dans des environnements inconnus. Présenté dans un article arXiv (2511.11931), le système repose sur une politique de diffusion, une approche inspirée des modèles génératifs d'images, pour piloter le comportement de l'agent selon trois modes distincts : exploration de zones inconnues, suivi de cibles détectées, et réacquisition de cibles perdues. L'ensemble du système fonctionne sans connaissance préalable du nombre de cibles, de leurs positions ou de leurs dynamiques de déplacement. Ce qui distingue MATT-Diff des approches existantes, c'est sa capacité à gérer le compromis fondamental en robotique de surveillance : quand explorer pour trouver des cibles encore inconnues, et quand exploiter l'information déjà disponible pour réduire l'incertitude sur les cibles déjà repérées. Le modèle utilise un vision transformer pour tokeniser les cartes égocentrées de l'agent, et un mécanisme d'attention pour intégrer des estimations variables des cibles représentées sous forme de densités gaussiennes. Entraîné comme un modèle de diffusion, il apprend à générer des séquences d'actions multimodales via un processus de débruitage, ce qui lui permet d'adopter des comportements variés face à une même situation, là où les politiques classiques produiraient une seule réponse déterministe. Pour constituer les données d'entraînement, les chercheurs ont combiné les démonstrations de trois planificateurs experts distincts : un planificateur à base de frontières pour l'exploration, un planificateur hybride basé sur l'incertitude alternant entre exploration et suivi via l'algorithme RRT*, et un planificateur hybride temporel déclenchant la réacquisition selon le temps écoulé depuis la dernière détection. Cette diversité des sources d'apprentissage explique la richesse comportementale du système final. Les évaluations montrent des performances supérieures aux autres baselines d'apprentissage dans des environnements inédits. Le code est disponible publiquement sur GitHub, ouvrant la voie à des applications en surveillance autonome, recherche et sauvetage, ou gestion de drones en milieu complexe.

RecherchePaper
1 source
Réseau de Rodrigues pour l'apprentissage des actions robotiques
2arXiv cs.RO 

Réseau de Rodrigues pour l'apprentissage des actions robotiques

Des chercheurs en robotique et apprentissage automatique ont proposé une nouvelle architecture neuronale baptisée RodriNet, décrite dans un article pré-publié sur arXiv (arXiv:2506.02618). L'équipe introduit d'abord un composant fondamental, le Neural Rodrigues Operator, une généralisation apprenante de l'opération classique de cinématique directe, qui permet d'encoder la structure géométrique des systèmes articulés directement dans le calcul neuronal. Sur deux tâches synthétiques de prédiction cinématique et de mouvement, RodriNet affiche des gains significatifs par rapport aux architectures standard comme les MLPs et les Transformers. Les auteurs valident ensuite l'approche sur deux applications concrètes : l'apprentissage par imitation sur des bancs d'essai robotiques en combinant RodriNet avec la Diffusion Policy, et la reconstruction 3D d'une main à partir d'une seule image. L'enjeu central est celui du biais inductif : les réseaux classiques traitent les actions articulées comme des vecteurs numériques quelconques, sans tenir compte du fait qu'un bras robotique ou une main humaine obéissent à des contraintes géométriques précises, celles de la cinématique. En intégrant ces contraintes directement dans l'architecture, RodriNet apprend plus efficacement à partir de données limitées et généralise mieux aux configurations inédites. Pour l'industrie de la robotique, cela représente une voie vers des politiques de contrôle plus robustes sans nécessiter de jeux de données massifs, ce qui est particulièrement précieux dans le cadre du déploiement de robots en environnements réels. Cette contribution s'inscrit dans une tendance plus large visant à réintroduire des connaissances physiques et géométriques dans les architectures d'apprentissage profond, après une décennie dominée par des modèles généralistes sans a priori structurels. La Diffusion Policy, utilisée ici comme cadre d'imitation, est elle-même une approche récente qui modélise les trajectoires robotiques comme des processus de diffusion. Le couplage de ces deux innovations suggère que la prochaine frontière en robotique apprenante passe par des architectures hybrides, à la fois flexibles et ancrées dans la physique du corps articulé.

RecherchePaper
1 source
SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels
3arXiv cs.RO 

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels

Une équipe de chercheurs a publié sur arXiv (référence 2604.24449) une nouvelle méthode baptisée SPLIT, conçue pour simuler des capteurs tactiles à base d'images utilisés en robotique. Le travail se concentre principalement sur le capteur DIGIT, un capteur tactile optique répandu dans la communauté robotique. SPLIT repose sur une stratégie d'arithmétique dans l'espace latent qui dissocie explicitement la géométrie de contact des propriétés optiques propres au capteur. Concrètement, le système décompose ce qu'il "voit" en deux composantes indépendantes : la forme de l'objet qui appuie sur le capteur, et les caractéristiques visuelles intrinsèques du capteur lui-même. La méthode intègre également une simulation par éléments finis (FEM) calibrée avec résolution variable, offrant un compromis ajustable entre vitesse de calcul et fidélité physique. Cette capacité de dissociation change profondément la manière dont on peut entraîner des modèles d'apprentissage automatique pour la perception tactile. Jusqu'ici, chaque nouvelle unité physique d'un capteur nécessitait une recalibration coûteuse en temps et en données. SPLIT élimine cette contrainte : une fois entraîné, le modèle peut s'adapter à différentes variantes du capteur DIGIT, voire se transférer vers des capteurs d'une autre famille, comme le GelSight R1.5, sans réentraînement complet. La méthode supporte en outre une simulation bidirectionnelle : elle peut générer des images réalistes à partir de maillages de déformation, mais aussi reconstruire un maillage à partir d'une image tactile réelle. La vitesse d'inférence dépasse celle des approches concurrentes existantes. Le manque de données d'entraînement réalistes est l'un des principaux freins au développement de la robotique tactile. Collecter des interactions physiques variées est lent, coûteux et difficile à reproduire à grande échelle, ce qui pousse la communauté vers des simulateurs capables de générer des données synthétiques crédibles. SPLIT s'inscrit dans cette tendance en proposant une solution généraliste, là où les méthodes antérieures restaient souvent liées à un seul type de capteur. En permettant le transfert inter-capteurs et en réduisant le besoin en données réelles, cette approche pourrait accélérer significativement le développement de robots capables de manipuler des objets avec précision et dextérité.

RecherchePaper
1 source
Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints
4arXiv cs.RO 

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

Des chercheurs ont publié sur arXiv une nouvelle approche de contrôle automatique pour les systèmes robotiques à dynamique incertaine, exploitant une propriété mathématique appelée platitude différentielle. Le contrôleur proposé repose sur une combinaison d'apprentissage machine et de commande prédictive par modèle (MPC), et se distingue des solutions existantes par sa capacité à gérer simultanément des systèmes à entrées multiples, des contraintes sur les commandes et des contraintes d'état dans l'espace plat. Techniquement, l'architecture repose sur une extension du système et une formulation diagonale par blocs du coût, permettant de résoudre le problème de contrôle en seulement deux optimisations convexes séquentielles, tout en offrant des garanties probabilistes de stabilité via un critère de Lyapunov. L'apport principal est d'ordre computationnel : la méthode atteint des performances comparables à un contrôleur MPC basé sur des processus gaussiens (GP-MPC), référence de l'état de l'art, mais en étant plusieurs fois plus rapide en temps de calcul. Pour les applications robotiques en temps réel, notamment les drones, les bras manipulateurs ou les véhicules autonomes, cette réduction de charge de calcul est déterminante. Elle permet d'envisager des boucles de contrôle plus rapides, des plateformes embarquées moins puissantes, ou des horizons de prédiction plus longs sans compromettre la réactivité du système. Les expériences sur matériel réel confirment un suivi de trajectoire compétitif, validant la transposabilité de l'approche au-delà de la simulation. La platitude différentielle est une propriété bien connue en automatique, exploitée depuis les années 1990 pour simplifier la planification de trajectoires dans des systèmes comme les quadrotors ou les voitures. Jusqu'ici, les travaux combinant flatness et apprentissage machine se heurtaient à des limitations majeures : absence de gestion des contraintes d'entrée, restriction aux systèmes mono-entrée, ou dépendance à une plateforme spécifique. Cette publication généralise l'approche à une classe beaucoup plus large de systèmes non linéaires, ouvrant la voie à des contrôleurs apprenants suffisamment efficaces pour quitter les bancs de simulation et équiper des robots industriels ou autonomes en conditions réelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour