RobotiquearXiv cs.RO · 23 avr. 2026, 07:00· 2 min de lecture

Apprentissage de l'assemblage tenon-mortaise par désassemblage visuo-tactile

Des chercheurs ont publié sur arXiv (référence 2604.20712) un nouveau cadre d'apprentissage pour les robots chargés d'effectuer des assemblages de type "goupille dans un trou" (peg-in-hole, PiH), une tâche de manipulation fondamentale en robotique industrielle. L'idée centrale : plutôt que d'entraîner directement le robot sur cette tâche difficile, l'équipe lui apprend d'abord la tâche inverse, retirer une goupille d'un trou (peg-out-of-hole, PooH), puis utilise ces trajectoires inversées temporellement comme données d'expertise pour maîtriser l'insertion. Le système combine deux modalités sensorielles, la vision et le toucher, formalisées dans un cadre de processus de décision markovien partiellement observable. Les résultats sont convaincants : un taux de réussite moyen de 87,5 % sur des géométries déjà vues en entraînement, et de 77,1 % sur des objets inédits, soit une amélioration de 18,1 points de pourcentage par rapport aux méthodes d'apprentissage par renforcement classiques partant de zéro. Les forces de contact mesurées lors des assemblages sont également 6,4 % inférieures à celles des systèmes n'utilisant qu'une seule modalité sensorielle.

L'enjeu de cette avancée est considérable pour l'automatisation industrielle. L'assemblage de pièces mécaniques avec précision reste l'un des goulots d'étranglement de la robotique manufacturière : un robot qui rate son insertion peut bloquer une ligne de production entière ou endommager des composants coûteux. La combinaison vision-toucher permet ici au robot de s'approcher du trou grâce aux informations visuelles, puis de corriger des désalignements millimétriques grâce aux capteurs tactiles, reproduisant le geste naturel d'un technicien humain qui "sent" la résistance avant d'ajuster. La généralisation à des objets non vus lors de l'entraînement est particulièrement prometteuse pour un déploiement industriel réel, où les pièces varient constamment d'un lot à l'autre.

La tâche peg-in-hole est un problème de référence en robotique depuis les années 1980, longtemps résolu par des méthodes analytiques rigides, peu adaptables. L'apprentissage par renforcement a ouvert de nouvelles perspectives, mais se heurte à un obstacle majeur : l'exploration est coûteuse et risquée, chaque tentative ratée pouvant provoquer des chocs mécaniques. La clé de l'approche proposée est d'exploiter l'asymétrie entre insertion et extraction : retirer une goupille ne nécessite pas d'alignement précis et génère des données d'entraînement bien plus facilement. Le code, les démonstrations vidéo et les jeux de données de l'équipe sont disponibles en ligne, ce qui pourrait accélérer l'adoption de ce type d'apprentissage hybride dans la communauté robotique internationale.

Impact France/UE

Cette avancée en assemblage robotisé précis pourrait bénéficier à l'industrie manufacturière européenne (automobile, aéronautique), mais l'article ne cite aucun acteur ou programme européen spécifique.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts

Des chercheurs ont présenté le Tube Diffusion Policy (TDP), un nouveau cadre d'apprentissage par imitation conçu pour la manipulation robotique en contact intense, c'est-à-dire les tâches où un robot doit saisir, pousser ou assembler des objets en gérant en permanence les incertitudes physiques. Publié sur arXiv (référence 2604.23609), TDP combine deux approches distinctes : les modèles génératifs à diffusion, qui ont récemment démontré de grandes capacités pour apprendre des comportements complexes, et le contrôle par tube, une méthode de rétroaction permettant de corriger les trajectoires en temps réel. Le système a été évalué sur le benchmark Push-T, largement utilisé dans la communauté robotique, ainsi que sur trois tâches additionnelles de manipulation dextère intégrant retour visuel et tactile. Sur l'ensemble de ces tests, TDP surpasse tous les modèles de référence de l'état de l'art, et deux expériences en conditions réelles confirment sa robustesse face aux perturbations extérieures et aux incertitudes de contact. L'apport concret de TDP réside dans sa capacité à réagir rapidement à des situations imprévues pendant l'exécution d'une tâche. Les approches dominantes reposent sur l'action chunking, qui consiste à planifier de longues séquences de mouvements à l'avance : efficace dans des environnements stables, cette méthode échoue dès qu'un contact inattendu ou une résistance physique surgit. TDP génère au contraire un "tube d'action", une enveloppe autour de la trajectoire nominale qui permet des micro-corrections continues à haute fréquence en s'appuyant sur les données tactiles et visuelles en temps réel. Le mécanisme de correction progressive réduit également le nombre d'étapes de débruitage nécessaires au modèle de diffusion, ce qui améliore significativement la vitesse d'inférence et rend le système compatible avec un contrôle robotique en boucle fermée rapide. Cette publication s'inscrit dans une dynamique de recherche intense autour des politiques de diffusion en robotique, initiée notamment par les travaux de Chi et al. sur Diffusion Policy en 2023. L'intégration du retour tactile reste un défi majeur du domaine : contrairement à la vision, le toucher impose une latence ultra-faible et une sensibilité aux perturbations millimétriques. TDP ouvre des perspectives pour des applications industrielles exigeantes comme l'assemblage de pièces fines, la chirurgie assistée ou les prothèses robotiques, où la réactivité au contact est critique. Les prochaines étapes probables incluent l'extension à des environnements plus complexes et la généralisation à de nouveaux types de capteurs tactiles.

RobotiqueOpinion

1 source

2arXiv cs.RO

Apprentissage augmenté par référence pour le contrôle précis de robots continus à tendons

Des chercheurs ont développé une nouvelle approche d'apprentissage automatique pour améliorer le contrôle précis des robots continus à tendons, une classe de robots flexibles dont les mouvements sont guidés par des câbles internes. Présentée dans un article publié sur arXiv (référence 2604.25698), la méthode repose sur un cadre d'apprentissage hors-ligne dit « augmenté par références », capable de piloter ces robots avec six degrés de liberté. Les tests ont été conduits sur une plateforme robotique à trois sections, et les résultats montrent une réduction de 50,9 % de l'erreur de position moyenne par rapport aux méthodes d'apprentissage non augmentées, ainsi qu'une nette supériorité face aux contrôleurs classiques dits « jacobiens », tant en précision qu'en stabilité, quelle que soit la vitesse de déplacement. Ce gain de performance est significatif pour les applications médicales et industrielles où ces robots flexibles sont utilisés, notamment en chirurgie mini-invasive, en endoscopie ou en exploration de structures encombrées. Le problème central des robots à tendons réside dans leur comportement non linéaire et dépendant de leur historique de mouvement : les câbles introduisent des effets d'hystérésis qui provoquent des oscillations difficiles à corriger avec les méthodes de contrôle traditionnelles. La nouvelle approche force le modèle à apprendre des mécanismes de récupération d'erreur variés sans nécessiter d'interactions physiques supplémentaires avec le robot, ce qui réduit les coûts et les risques d'usure matérielle pendant l'entraînement. La difficulté à contrôler précisément ces robots flexibles freine depuis longtemps leur déploiement dans des environnements cliniques réels, où la moindre déviation de trajectoire peut avoir des conséquences graves. Les approches par réseau de neurones récurrents (RNN), utilisées ici comme pont différentiable pour optimiser la politique de contrôle, permettent de modéliser la dépendance temporelle des dynamiques sans recourir à des modèles analytiques trop simplifiés. L'équipe introduit également une augmentation multi-échelle combinant biais stochastiques, perturbations harmoniques et marches aléatoires, ce qui expose le modèle à une grande diversité de trajectoires pendant l'entraînement. Les prochaines étapes probables incluent une validation sur des scénarios cliniques réels et une extension à des robots à sections multiples plus complexes.

UELes avancées en contrôle de précision des robots flexibles médicaux pourraient bénéficier aux établissements hospitaliers et entreprises européennes actifs en chirurgie mini-invasive et endoscopie.

RobotiqueOpinion

1 source

3arXiv cs.RO

ESPADA : accélération de l'apprentissage par imitation via sous-échantillonnage sémantique des démonstrations

Des chercheurs ont publié ESPADA, un système conçu pour accélérer les robots apprenants par imitation sans sacrifier leur précision. Présenté dans un article arXiv (2512.07371), le cadre analyse les démonstrations humaines enregistrées grâce à un pipeline combinant un grand modèle de vision (VLM) et un grand modèle de langage (LLM), qui segmente chaque séquence de mouvement en phases critiques et non critiques en tenant compte des relations spatiales 3D entre la pince du robot et les objets manipulés. Les segments jugés non essentiels sont fortement sous-échantillonnés, ce qui réduit les délais d'exécution, tandis que les phases de précision restent intactes. Pour étendre cette annotation d'un seul épisode à l'ensemble d'un jeu de données, ESPADA propage automatiquement les étiquettes via le Dynamic Time Warping (DTW) appliqué aux caractéristiques dynamiques. Testée sur deux architectures de référence, ACT et Diffusion Policy, aussi bien en simulation que dans des environnements réels, la méthode atteint en moyenne un gain de vitesse de 2x tout en conservant les taux de réussite initiaux. Ce résultat est concret : un robot industriel deux fois plus rapide sans perte de fiabilité représente un levier direct de rentabilité pour les lignes de production automatisées. L'absence de retraining et de modification architecturale est tout aussi importante, car elle permet d'intégrer ESPADA sur des systèmes existants sans refaire des campagnes d'entraînement coûteuses. Le principal verrou levé ici est psychologique autant que technique : les robots imitateurs ont tendance à reproduire la prudence humaine, ce tempo lent et hésitant qui, chez l'humain, compense l'incertitude mais devient un frein en production continue. La robotique par imitation a connu un essor rapide ces dernières années grâce à des architectures comme ACT (Action Chunking Transformer) ou les politiques de diffusion, qui permettent à des robots de généraliser à partir de quelques dizaines de démonstrations filmées. Les tentatives précédentes d'accélération reposaient sur des heuristiques statistiques, ignorant le sens des tâches, et échouaient sur des manipulations variées. ESPADA tranche en intégrant une compréhension sémantique de ce qui compte vraiment dans un mouvement, ouvrant la voie à des robots industriels plus compétitifs face à la programmation traditionnelle.

UELes industries manufacturières européennes utilisant la robotique par imitation pourraient bénéficier d'un doublement de la cadence sans surcoût de réentraînement, mais la méthode reste au stade de la recherche arXiv sans déploiement commercial annoncé.

RobotiquePaper

1 source

4arXiv cs.RO

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic