
Estimation de pose 6-DOF pour objets inconnus : vers un déploiement robotique à grande échelle
Une équipe de chercheurs a publié en 2025 SinRef-6D, une méthode d'estimation de pose 6-DoF (six degrés de liberté) conçue pour des objets inconnus à partir d'une seule image de référence RGB-D. Contrairement aux approches dominantes qui exigent soit un modèle CAO complet, soit un ensemble dense de vues de référence, SinRef-6D n'utilise qu'un unique cliché annoté capturé pendant la manipulation robotique. Le système a été validé sur six benchmarks académiques standards et intégré dans un système robotique réel pour des tâches de préhension (grasping). Le code source et des démonstrations vidéo sont disponibles publiquement via le site associé à l'article.
L'enjeu est significatif pour les intégrateurs industriels : l'absence de dépendance à un modèle CAO ou à une base de données de vues représente un frein majeur au déploiement de la manipulation robotique en environnement non contrôlé. Si la méthode tient ses promesses à l'échelle, elle réduit le coût de mise en service pour des objets nouveaux ou variables, un problème concret dans la logistique, le pick-and-place e-commerce ou l'assemblage à variantes élevées. Le système repose sur des State Space Models (SSMs), une architecture alternative aux Transformers qui offre une complexité linéaire pour la modélisation de dépendances spatiales longue portée à partir d'un seul point de vue. Cela permet de compenser la pauvreté géométrique inhérente à une image unique, via un alignement itératif point-à-point dans un système de coordonnées objet commun. Une nuance s'impose cependant : les démonstrations robotiques présentées restent des scénarios de laboratoire, et aucune donnée de déploiement industriel à grande échelle n'est communiquée.
La problématique de la scalabilité en estimation de pose est active depuis plusieurs années, avec des travaux comme FoundPose, FoundPose, Gen6D ou GigaPose qui tentent chacun de réduire la dépendance aux données de référence. SinRef-6D se positionne sur le segment le plus contraint, une seule vue, ce qui le distingue techniquement mais pose la question de la robustesse face aux occlusions partielles ou aux variations d'éclairage importantes, non documentées dans l'abstract. Les prochaines étapes attendues pour ce type de travaux incluent l'intégration dans des pipelines de manipulation généraliste (type pi0 ou RDT-1B), où l'estimation de pose externe peut compléter les approches end-to-end visuomotrices.



