RecherchearXiv cs.RO6j

MM-Hand : une main robotique dextère modulaire à 21 degrés de liberté avec actuation déportée

Résumé IASource uniqueImpact UE

Des chercheurs du MMlab (Hong Kong) ont publié les spécifications complètes de MM-Hand, une main robotique à actionnement tendineux déporté dotée de 21 degrés de liberté (DOF). L'architecture centrale repose sur la délocalisation des moteurs vers la base du robot ou un hub moteur externe, les tendons transitant par des gaines flexibles jusqu'aux doigts. La main intègre des doigts à retour par ressort, des structures palmaire et digitale modulaires imprimées en 3D, des connecteurs tendineux à remplacement rapide, ainsi qu'un système de captation multimodale comprenant des encodeurs articulaires, des capteurs tactiles, un retour d'effort côté moteur, et une caméra stéréo embarquée dans la paume. Les expériences publiées rapportent une force de 25 N en bout de doigt via une transmission tendon-gaine d'un mètre, et les essais en boucle fermée ont été conduits aussi bien bras statique que bras en mouvement. L'ensemble des designs matériels et logiciels est publié en open source.

Ce travail s'attaque à un verrou classique de la manipulation dextère à haute densité de DOF : l'encombrement thermique et massique des actionneurs embarqués dans la main. En déportant les moteurs, MM-Hand libère le volume intra-main pour des capteurs et des mécanismes supplémentaires, ce qui change concrètement l'équation pour les laboratoires de recherche en manipulation. La combinaison vision stéréo palmaire et toucher tactile dans un seul effecteur ouvre la voie à des politiques d'apprentissage multimodal (VLA, diffusion policies) sans avoir à multiplier les capteurs externes. La publication open source de la mécanique et du firmware est un signal fort : les auteurs misent sur la réplication communautaire pour valider le passage à l'échelle, ce que les démonstrations en laboratoire seul ne peuvent pas prouver.

MM-Hand s'inscrit dans un effort plus large d'industrialisation de la main robotique dextère, un segment où l'on retrouve Shadow Robotics (UK, 24-DOF, câbles), Inspire Robots (Chine, utilisée sur Unitree H1 et G1) et Wonik Robotics (Allegro Hand, 16-DOF, courroies). La différenciation revendiquée de MM-Hand est sa maintenabilité modulaire et son coût de reproduction accessible via impression 3D. Le MMlab n'a pas annoncé de partenariat industriel ni de feuille de route de commercialisation : il s'agit pour l'instant d'une plateforme de recherche publiée, pas d'un produit shipé.

Impact France/UE

Les laboratoires européens de recherche en manipulation dextère peuvent répliquer MM-Hand grâce à la publication open source complète (mécanique + firmware), mais aucun partenariat ni déploiement européen n'est annoncé par le MMlab.

Dans nos dossiers

Robots humanoïdes Open weight & Open source

À lire aussi

1arXiv cs.RO

Analyse cinématique des degrés de liberté de la paume pour améliorer l'opposabilité du pouce dans les mains robotiques

Des chercheurs ont soumis sur arXiv (identifiant 2604.22283) une analyse cinématique du rôle des degrés de liberté (DoF) palmaires dans l'opposabilité du pouce au sein d'une main robotique à cinq doigts. Le modèle étudié intègre un pouce à 5 DoF et quatre doigts disposant chacun de 3 à 4 DoF, avec un mouvement palmaire introduit entre les doigts adjacents. Pour quantifier l'interaction pouce-doigt, les auteurs calculent un volume d'espace de travail partagé à partir de régions d'accessibilité voxelisées en bout de doigts. Sept configurations sont évaluées : certaines augmentent le total de DoF, d'autres le maintiennent constant en redistribuant des DoF des doigts vers la paume. Les résultats montrent que les DoF palmaires améliorent significativement l'opposabilité, notamment pour l'annulaire et l'auriculaire, non en étendant leur portée individuelle mais en repositionnant leur point d'ancrage à la base. Ce mécanisme est distinct de celui produit par les DoF de doigt, ce qui invalide l'hypothèse souvent implicite que les deux sont interchangeables lors de la conception. En revanche, lorsque le nombre total de DoF est contraint, cas quasi-universel dans les mains robotiques industrielles pour des raisons de coût et de complexité mécanique, la redistribution vers la paume crée des compromis entre l'expansion de l'espace de travail partagé et la redondance cinématique. L'étude propose un cadre d'évaluation quantitatif utilisable sans modèle d'objet ni de contact, ce qui simplifie l'exploration de l'espace de conception en phase amont. La conception des mains robotiques polyvalentes reste l'un des verrous majeurs de la robotique humanoïde et dextre. Des acteurs comme Shadow Robot, DexHand, Inspire Robots et le projet LEAP Hand (Carnegie Mellon) ont chacun fait des choix différents sur la répartition paume-doigt. Cette contribution s'inscrit dans une tendance plus large vers des effecteurs anthropomorphes capables de manipulation fine, nécessaires aux architectures VLA (Vision-Language-Action) qui supposent une morphologie proche de la main humaine. L'étude reste purement théorique, aucun prototype physique ni partenariat industriel n'est mentionné, et ses lignes directrices devront être validées expérimentalement, notamment par l'intégration de modèles de contact et de dynamique de préhension.

RecherchePaper

1 source

2arXiv cs.RO

ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle

Des chercheurs ont publié en avril 2026 un préprint arXiv (référence 2604.05260v2) présentant ZipFold, un actionneur modulaire capable de transformer simultanément sa taille et sa rigidité par plissage et verrouillage de bandelettes plastiques imprimées en 3D. Le principe repose sur l'enroulement de ces bandelettes flexibles en poutres à section carrée : en position compacte, la structure reste souple et peu encombrante ; en position déployée, elle atteint un état quasi-rigide. La transition est continue, réversible, et ne requiert ni mécanisme hydraulique ni pneumatique. Un prototype intégrant quatre de ces modules a été démontré sous la forme d'un robot marcheur adaptatif capable de modifier dynamiquement sa démarche en ajustant la rigidité de ses membres en temps réel. Le principal intérêt de ZipFold réside dans sa généricité : contrairement aux actionneurs à rigidité variable existants, généralement conçus sur-mesure pour un usage précis et difficilement réutilisables dans un autre contexte, cette brique modulaire peut être assemblée en configurations arbitraires. La fabrication par impression 3D de plastique flexible abaisse le seuil d'entrée pour les équipes de recherche et les petits intégrateurs, sans nécessiter de chaîne d'approvisionnement spécialisée. Pour des systèmes robotiques opérant dans des environnements changeants (logistique, inspection, rééducation), la capacité à modifier le comportement mécanique sans reconfiguration matérielle représente un avantage opérationnel concret. Il faut toutefois tempérer : le papier est un préprint académique sans benchmarks comparatifs publiés face aux alternatives existantes, et les performances annoncées (rigidité atteinte, charge utile, nombre de cycles) restent à valider sur des durées et des conditions représentatives. Le problème de la rigidité variable mobilise la communauté robotique depuis des décennies : les approches pneumatiques (jamming de particules, muscles McKibben), les alliages à mémoire de forme (SMA) et les câbles antagonistes dominent aujourd'hui, mais chacun achoppe sur des compromis entre vitesse de commutation, encombrement et complexité d'intégration. ZipFold se positionne sur le créneau de la modularité fabricatoire, un espace encore peu occupé par des solutions génériques et bas-coût. Le préprint ne mentionne ni partenaire industriel ni calendrier de transfert technologique ; les prochaines étapes attendues incluent des tests de charge, des essais en endurance cyclique, ainsi qu'une démonstration sur des morphologies plus complexes que le marcheur quadrimodulaire actuel.

RecherchePaper

1 source

3arXiv cs.RO

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Une étude empirique de grande envergure, publiée sur arXiv (référence 2602.23408), apporte les premières réponses systématiques à une question restée sans réponse rigoureuse dans la communauté de la manipulation robotique : comment concevoir l'espace d'action d'une politique apprise par imitation ? Les chercheurs ont conduit plus de 13 000 déploiements réels sur un robot bimanuel, entraîné et évalué plus de 500 modèles sur quatre scénarios distincts, en examinant deux axes structurants : l'axe temporel (représentations absolues vs. incrémentales, dites "delta") et l'axe spatial (espace articulaire, ou joint-space, vs. espace opérationnel, ou task-space). Le résultat principal est sans ambiguïté : les représentations delta, qui encodent des variations de position plutôt que des positions cibles absolues, améliorent systématiquement les performances d'apprentissage. Sur l'axe spatial, joint-space et task-space révèlent des forces complémentaires : le premier favorise la stabilité du contrôle, le second facilite la généralisation à de nouveaux scénarios. Ces résultats ont une portée directe pour les équipes qui développent des politiques robotiques en production. Jusqu'ici, le choix de l'espace d'action relevait d'heuristiques héritées ou de conventions propres à chaque laboratoire, sans base empirique solide. L'étude montre que ce choix n'est pas accessoire : il conditionne fondamentalement le paysage d'optimisation de l'apprentissage par imitation, bien davantage que ce que supposait la littérature. Pour un intégrateur ou un ingénieur concevant un système de manipulation industrielle, la recommandation est désormais claire : préférer les delta actions par défaut, et arbitrer entre joint-space et task-space selon que la priorité est la stabilité du suivi de trajectoire ou la robustesse face à la variabilité des tâches. Ces conclusions sont directement applicables aux architectures VLA (Vision-Language-Action), qui dominent actuellement la recherche en politiques généralisables. Ce travail intervient dans un contexte où la course à la mise à l'échelle des données et des modèles concentre la majorité des ressources de recherche. Des systèmes comme pi-0 (Physical Intelligence), ACT ou Diffusion Policy ont popularisé l'imitation learning comme voie principale vers la manipulation généraliste, et des acteurs comme Figure AI, 1X ou Apptronik misent sur ces architectures pour leurs déploiements industriels. Pourtant, la conception de l'espace d'action restait guidée par des choix hérités des années 2010, faute d'étude comparative à grande échelle. En comblant ce manque avec une rigueur rare, les auteurs posent une base méthodologique qui devrait informer la prochaine génération de politiques bimanuelle et les benchmarks de comparaison entre systèmes.

RechercheOpinion

1 source

4arXiv cs.RO

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

Une équipe de recherche a publié fin avril 2026 (arXiv:2604.22615) GazeVLA, un framework de manipulation robotique qui exploite le regard humain comme représentation intermédiaire de l'intention. L'approche repose sur un préentraînement du modèle sur un large corpus de vidéos égocentrées humaines, puis un fine-tuning sur un ensemble réduit de données robotiques et humaines combinées. Lors de l'inférence, le modèle adopte un raisonnement en chaîne (Chain-of-Thought) : il prédit d'abord la cible de fixation oculaire, c'est-à-dire l'intention, avant d'exécuter l'action motrice. Les évaluations couvrent des tâches longues-horizon et de manipulation fine-grained, en simulation et en conditions réelles, avec des benchmarks few-shot et de robustesse. Le modèle surpasse les baselines comparées sur l'ensemble des scénarios testés et atteint l'état de l'art annoncé, bien que le papier reste un preprint sans validation industrielle tierce. Le vrai enjeu de GazeVLA est économique autant que technique : collecter des démonstrations robotiques à grande échelle coûte cher et ralentit le déploiement des VLA (Vision-Language-Action models) dans des environnements industriels variés. L'abondance de vidéos égocentrées humaines, corpus comme Ego4D ou EPIC-Kitchens comptent des milliers d'heures, offre une source de données bon marché, mais le "embodiment gap" rendait leur transfert direct peu fiable. En intercalant la prédiction de gaze comme signal d'intention universel, le framework réduit ce gap sans exiger de grands volumes de démonstrations robot-spécifiques. La capacité few-shot est particulièrement pertinente pour des intégrateurs industriels qui ne peuvent pas se permettre des campagnes de collecte coûteuses pour chaque nouvelle tâche ou ligne de production. GazeVLA s'inscrit dans une compétition dense autour des architectures VLA généralisables : Physical Intelligence (pi-0), OpenVLA (UC Berkeley), Octo, et plus récemment GR00T N2 de NVIDIA cherchent tous à réduire la dépendance aux données robotiques propriétaires. L'angle "intention via gaze" n'est pas entièrement nouveau, des travaux antérieurs comme R3M ou DINObot ayant déjà exploré le préentraînement sur vidéos humaines, mais l'explicitation de la fixation oculaire comme étape de raisonnement séquentiel est une contribution distincte. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade, et les auteurs ne mentionnent pas d'affiliations avec des acteurs européens. Les prochaines étapes logiques seraient un test à plus grande échelle sur des robots commerciaux (Franka, UR) et une validation sur des tâches industrielles standardisées.

RechercheOpinion

1 source