
InCoM : perception guidée par l'intention et coordination structurée pour la manipulation mobile
Des chercheurs ont publié InCoM, un nouveau cadre algorithmique pour la manipulation mobile robotique, détaillé dans un préprint arXiv (2602.23024). La manipulation mobile désigne la capacité d'un robot à se déplacer dans l'espace tout en manipulant des objets avec son bras, une combinaison exigeante qui requiert la coordination simultanée d'une base motorisée et d'un effecteur. InCoM aborde ce problème sur deux fronts : d'un côté, un mécanisme de perception piloté par l'intention, qui infère dynamiquement les étapes motrices du robot pour redistribuer l'attention perceptuelle à différentes échelles ; de l'autre, un décodeur d'action à flux correspondant découplé, qui modélise explicitement la génération coordonnée des commandes base-bras sans les coupler directement. Testé sur trois scénarios du benchmark ManiSkill-HAB, InCoM surpasse les méthodes existantes avec des gains de taux de succès respectifs de 28,2 %, 26,1 % et 23,6 %, sans recours à des informations privilégiées. Ces performances ont également été confirmées sur des tâches réelles.
Ces résultats comptent parce que la manipulation mobile reste l'un des verrous majeurs de la robotique généraliste. Un robot capable de naviguer dans un appartement et d'y accomplir des tâches physiques complexes, comme ranger des objets ou préparer un repas, doit gérer en permanence des points de vue changeants et des conflits de commande entre sa locomotion et son bras. Les gains de plus de 20 points de pourcentage sur un benchmark de référence signalent une rupture méthodologique, pas une amélioration incrémentale, ce qui intéresse directement les industriels travaillant sur les robots domestiques et les systèmes logistiques autonomes.
La difficulté du couplage base-bras est connue depuis les premières architectures de robots mobiles manipulateurs dans les années 2010. Les approches récentes, souvent basées sur l'apprentissage par renforcement ou les transformers visuels, peinent encore à allouer efficacement l'attention perceptuelle quand la caméra du robot se déplace. InCoM répond à ce problème en introduisant une notion d'intention latente qui anticipe les phases de mouvement avant qu'elles ne surviennent. La validation sur environnements réels, souvent absente des travaux académiques, renforce la crédibilité du système. La prochaine étape probable sera l'intégration de ce cadre dans des plateformes robotiques commerciales comme celles de Figure AI, Boston Dynamics ou 1X Technologies, toutes engagées dans la course au robot domestique généraliste.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




