Aller au contenu principal
CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque
RobotiquearXiv cs.RO3sem

CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque

Résumé IASource uniqueImpact UE
Source originale ↗·
CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque
▶ Voir sur YouTube

Des chercheurs ont publié CubeDAgger, une nouvelle méthode d'apprentissage par imitation interactive conçue pour les systèmes robotiques dynamiques. Présentée dans un article soumis à arXiv (identifiant 2505.04897), elle s'appuie sur un cadre existant appelé EnsembleDAgger et y apporte trois améliorations distinctes : une régularisation explicite du seuil de déclenchement des corrections humaines, un mécanisme de consensus entre plusieurs candidats d'action en lieu et place du simple basculement entre expert et agent, et enfin l'injection d'un bruit coloré autorégressif dans les actions du robot pour garantir une exploration cohérente dans le temps. Les expériences réelles ont été conduites sur une tâche de ramassage avec une cuillère, un robot apprenant à exécuter ce geste correctement à partir de zéro en seulement 30 minutes d'interaction avec un expert humain.

L'enjeu central que CubeDAgger cherche à résoudre est la stabilité dynamique, un problème négligé par la majorité des méthodes actuelles. Les algorithmes d'apprentissage par imitation interactive existants fonctionnent bien pour des tâches statiques, où l'expert peut intervenir ponctuellement sans perturber le comportement du robot. Mais dès que la tâche implique du mouvement continu, ramasser un objet, stabiliser une trajectoire, un basculement brutal entre le mode expert et le mode autonome provoque des à-coups mécaniques qui compromettent la sécurité et la fiabilité. CubeDAgger réduit ces discontinuités, ce qui le rend pertinent pour des applications industrielles ou médicales où la précision du geste est critique.

L'apprentissage par imitation interactive, dont DAgger est le pionnier depuis 2011, reste une approche de référence pour entraîner des politiques robotiques robustes sans nécessiter des millions d'exemples. Le défi a toujours été de minimiser la charge imposée à l'expert humain tout en conservant la qualité de l'apprentissage. Les variantes récentes comme EnsembleDAgger avaient progressé sur ce point, mais butaient sur les tâches dynamiques. CubeDAgger s'inscrit dans une tendance plus large visant à rendre la robotique apprenante opérationnelle en dehors des environnements contrôlés de laboratoire, avec des horizons d'application dans la logistique, la chirurgie assistée, ou encore les robots d'assistance domestique.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Modélisation dynamique par apprentissage automatique et contrôle robuste pour robots continus à tendons
1arXiv cs.RO 

Modélisation dynamique par apprentissage automatique et contrôle robuste pour robots continus à tendons

Des chercheurs ont publié le 29 avril 2026 une nouvelle approche pour contrôler les robots continus à tendons (TDCRs), une catégorie de robots souples dont les mouvements sont pilotés par des câbles ou tendons internes. Ces systèmes sont particulièrement difficiles à modéliser en raison de non-linéarités complexes : hystérésis de friction, compliance de transmission et comportements dynamiques qui s'amplifient sur de longues séquences de mouvements. L'équipe propose un cadre d'apprentissage différentiable combinant un modèle de dynamique haute fidélité basé sur des réseaux GRU (Gated Recurrent Units) avec une politique de contrôle neuronal entraînée de bout en bout. Le modèle intègre une connectivité bidirectionnelle multi-canaux et une prédiction résiduelle pour supprimer l'accumulation d'erreurs lors des prédictions auto-régressives sur le long terme. Les expériences ont été menées sur un robot physique à trois sections, validant les performances en conditions réelles. Cette approche dépasse les méthodes classiques basées sur le jacobien, qui génèrent des oscillations auto-entretenues problématiques pour la précision et la stabilité. En traitant le modèle de dynamique comme un "pont de gradient", la politique de contrôle apprend implicitement à compenser les non-linéarités intrinsèques du robot sans qu'il soit nécessaire de les modéliser explicitement. Le résultat est un suivi de trajectoire précis et une robustesse supérieure face à des charges utiles inconnues, c'est-à-dire des poids non intégrés lors de l'entraînement, ce qui est critique pour les applications en environnements variables. Les robots continus à tendons suscitent un intérêt croissant en chirurgie mini-invasive, inspection industrielle et manipulation en espaces confinés, précisément parce que leur souplesse leur permet d'évoluer là où les bras rigides échouent. Le principal verrou restait leur contrôle fiable dans des conditions dynamiques réelles. Cette publication s'inscrit dans une tendance plus large d'intégration de l'apprentissage automatique dans la robotique physique, où les modèles appris remplacent progressivement les équations analytiques trop simplificatrices. Les prochaines étapes pourraient inclure la généralisation à des robots à plus de sections, l'adaptation en temps réel au vieillissement mécanique des tendons, et une intégration dans des systèmes chirurgicaux assistés.

RobotiqueOpinion
1 source
Surveillance d'environnements intérieurs dynamiques par apprentissage par renforcement multi-agents
2arXiv cs.RO 

Surveillance d'environnements intérieurs dynamiques par apprentissage par renforcement multi-agents

Des chercheurs ont publié sur arXiv un système de surveillance d'intérieurs basé sur des équipes de robots mobiles pilotées par apprentissage par renforcement multi-agents (MARL). Le principe : plusieurs robots autonomes se coordonnent en temps réel pour observer les déplacements humains dans un bâtiment, sans contrôleur central. Chaque robot prend ses décisions à partir de ses seules observations locales, dans un cadre dit décentralisé. Les simulations ont couvert des environnements intérieurs variés et plusieurs types de tâches de surveillance, avec des équipes dont la composition en nombre d'humains observés varie dynamiquement. Ce travail s'attaque à un angle mort des approches robotiques classiques : les algorithmes de couverture de surface ou de visite périodique optimisent le déplacement des robots, pas la qualité réelle de l'observation. Pour des usages concrets comme la gestion de bâtiments, l'évaluation de la sécurité ou l'analyse de l'occupation des espaces, ce décalage est coûteux. Le système proposé aligne directement l'objectif d'entraînement sur la précision de la surveillance humaine, ce qui permet aux robots d'ajuster leur trajectoire pour maximiser la qualité d'information, y compris dans des scènes où le nombre de personnes change à l'improviste. Les résultats montrent des performances supérieures à tous les baselines testés, qu'ils soient classiques ou basés sur l'apprentissage. Ce type de travaux s'inscrit dans une tendance de fond : l'essor du MARL pour des problèmes de robotique coopérative où la coordination explicite est coûteuse ou impossible. Les environnements intérieurs dynamiques restent un défi ouvert pour la robotique autonome, en raison de l'imprévisibilité des comportements humains et des contraintes physiques des espaces. Les applications industrielles visées, de la logistique d'entrepôt à la sécurité des hôpitaux, représentent un marché en forte croissance. La prochaine étape naturelle sera le passage de la simulation au déploiement réel, où les bruits de capteurs, les occlusions physiques et la latence réseau mettront à l'épreuve la robustesse de ces politiques apprises.

UELes systèmes de surveillance autonome par robots entrent dans la catégorie à haut risque de l'AI Act européen, ce qui conditionnera les exigences de conformité pour tout déploiement commercial en UE.

RobotiqueOpinion
1 source
Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique
3arXiv cs.RO 

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper
1 source
Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts
4arXiv cs.RO 

Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts

Des chercheurs ont présenté le Tube Diffusion Policy (TDP), un nouveau cadre d'apprentissage par imitation conçu pour la manipulation robotique en contact intense, c'est-à-dire les tâches où un robot doit saisir, pousser ou assembler des objets en gérant en permanence les incertitudes physiques. Publié sur arXiv (référence 2604.23609), TDP combine deux approches distinctes : les modèles génératifs à diffusion, qui ont récemment démontré de grandes capacités pour apprendre des comportements complexes, et le contrôle par tube, une méthode de rétroaction permettant de corriger les trajectoires en temps réel. Le système a été évalué sur le benchmark Push-T, largement utilisé dans la communauté robotique, ainsi que sur trois tâches additionnelles de manipulation dextère intégrant retour visuel et tactile. Sur l'ensemble de ces tests, TDP surpasse tous les modèles de référence de l'état de l'art, et deux expériences en conditions réelles confirment sa robustesse face aux perturbations extérieures et aux incertitudes de contact. L'apport concret de TDP réside dans sa capacité à réagir rapidement à des situations imprévues pendant l'exécution d'une tâche. Les approches dominantes reposent sur l'action chunking, qui consiste à planifier de longues séquences de mouvements à l'avance : efficace dans des environnements stables, cette méthode échoue dès qu'un contact inattendu ou une résistance physique surgit. TDP génère au contraire un "tube d'action", une enveloppe autour de la trajectoire nominale qui permet des micro-corrections continues à haute fréquence en s'appuyant sur les données tactiles et visuelles en temps réel. Le mécanisme de correction progressive réduit également le nombre d'étapes de débruitage nécessaires au modèle de diffusion, ce qui améliore significativement la vitesse d'inférence et rend le système compatible avec un contrôle robotique en boucle fermée rapide. Cette publication s'inscrit dans une dynamique de recherche intense autour des politiques de diffusion en robotique, initiée notamment par les travaux de Chi et al. sur Diffusion Policy en 2023. L'intégration du retour tactile reste un défi majeur du domaine : contrairement à la vision, le toucher impose une latence ultra-faible et une sensibilité aux perturbations millimétriques. TDP ouvre des perspectives pour des applications industrielles exigeantes comme l'assemblage de pièces fines, la chirurgie assistée ou les prothèses robotiques, où la réactivité au contact est critique. Les prochaines étapes probables incluent l'extension à des environnements plus complexes et la généralisation à de nouveaux types de capteurs tactiles.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour