
Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties
Des chercheurs ont publié le 20 avril 2026 (arXiv:2604.15455) une méthode permettant à un robot d'apprendre un geste à partir d'une seule démonstration, puis de le transférer à des objets de formes radicalement différentes, sans nouvel entraînement. L'approche repose sur une décomposition sémantique : plutôt que de comparer un objet entier à un autre, le système identifie les parties fonctionnelles pertinentes (poignée, bord, surface de contact) et transfère les points d'interaction entre les pièces homologues de l'objet de démonstration et de l'objet cible. Des modèles génératifs de formes à faible coût de données construisent automatiquement une fonction objectif qui optimise l'alignement de ces points sur les parties critiques pour l'exécution du skill. Les validations couvrent plusieurs skills et familles d'objets, en simulation et en environnement réel.
Ce résultat est notable car il s'attaque directement au "demo-to-reality gap" géométrique : la majorité des systèmes actuels de transfert de skills, y compris ceux basés sur des Visual Language Action models (VLA), peinent dès que la forme de l'objet cible s'écarte significativement de celle vue lors de l'apprentissage. La décomposition en parties découple la variabilité de forme globale de la logique d'interaction locale, ce qui augmente mécaniquement le domaine de généralisation sans multiplier les données d'entraînement. Pour un intégrateur industriel ou un équipementier travaillant sur des lignes multi-références, c'est une piste concrète pour réduire le coût de re-programmation à chaque changement de référence produit.
Le problème du transfert de skills en robotique est étudié depuis des années sous différents angles : apprentissage par démonstration (LfD), correspondances fonctionnelles entre objets, ou plus récemment les VLA pré-entraînés sur larges corpus vidéo (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA). Cette approche se positionne dans la lignée des travaux sur le raisonnement compositionnel, qui cherchent à représenter les objets non comme des blobs de points mais comme des assemblages de parties sémantiques, une direction explorée également par des groupes comme le MIT CSAIL et Stanford. Aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution académique, prometteuse mais encore à valider sur des skills complexes et des environnements fortement non structurés.



