Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts
Des chercheurs ont présenté le Tube Diffusion Policy (TDP), un nouveau cadre d'apprentissage par imitation conçu pour la manipulation robotique en contact intense, c'est-à-dire les tâches où un robot doit saisir, pousser ou assembler des objets en gérant en permanence les incertitudes physiques. Publié sur arXiv (référence 2604.23609), TDP combine deux approches distinctes : les modèles génératifs à diffusion, qui ont récemment démontré de grandes capacités pour apprendre des comportements complexes, et le contrôle par tube, une méthode de rétroaction permettant de corriger les trajectoires en temps réel. Le système a été évalué sur le benchmark Push-T, largement utilisé dans la communauté robotique, ainsi que sur trois tâches additionnelles de manipulation dextère intégrant retour visuel et tactile. Sur l'ensemble de ces tests, TDP surpasse tous les modèles de référence de l'état de l'art, et deux expériences en conditions réelles confirment sa robustesse face aux perturbations extérieures et aux incertitudes de contact.
L'apport concret de TDP réside dans sa capacité à réagir rapidement à des situations imprévues pendant l'exécution d'une tâche. Les approches dominantes reposent sur l'action chunking, qui consiste à planifier de longues séquences de mouvements à l'avance : efficace dans des environnements stables, cette méthode échoue dès qu'un contact inattendu ou une résistance physique surgit. TDP génère au contraire un "tube d'action", une enveloppe autour de la trajectoire nominale qui permet des micro-corrections continues à haute fréquence en s'appuyant sur les données tactiles et visuelles en temps réel. Le mécanisme de correction progressive réduit également le nombre d'étapes de débruitage nécessaires au modèle de diffusion, ce qui améliore significativement la vitesse d'inférence et rend le système compatible avec un contrôle robotique en boucle fermée rapide.
Cette publication s'inscrit dans une dynamique de recherche intense autour des politiques de diffusion en robotique, initiée notamment par les travaux de Chi et al. sur Diffusion Policy en 2023. L'intégration du retour tactile reste un défi majeur du domaine : contrairement à la vision, le toucher impose une latence ultra-faible et une sensibilité aux perturbations millimétriques. TDP ouvre des perspectives pour des applications industrielles exigeantes comme l'assemblage de pièces fines, la chirurgie assistée ou les prothèses robotiques, où la réactivité au contact est critique. Les prochaines étapes probables incluent l'extension à des environnements plus complexes et la généralisation à de nouveaux types de capteurs tactiles.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




