
RecoverFormer : récupération en boucle fermée avec conscience des contacts pour robots humanoïdes
Des chercheurs ont présenté RecoverFormer, un système de contrôle entièrement automatisé permettant aux robots humanoïdes de récupérer leur équilibre après des chutes ou des poussées imprévues. Publié sur arXiv (2604.22911), ce travail introduit une politique d'apprentissage bout-en-bout testée sur le robot Unitree G1 dans le simulateur MuJoCo. L'architecture repose sur un transformeur causal analysant les 50 dernières étapes d'observation du robot, combiné à deux modules inédits : un « mode de récupération latent » permettant de passer fluidement entre différentes stratégies d'équilibre, et une tête de prédiction de contacts qui identifie les surfaces environnantes exploitables, murs, rambardes, bords de table. Entraîné uniquement sur sol plat et ouvert, RecoverFormer atteint 100 % de succès de récupération face à des poussées de 100 à 300 newtons, et ce quelle que soit la distance au mur (de 0,25 à 1,4 mètre), sans avoir jamais vu ces obstacles pendant l'entraînement.
Ces résultats sont significatifs car ils montrent qu'un seul modèle peut gérer des situations radicalement différentes sans reprogrammation manuelle ni supervision par mode de récupération. Sous des conditions dégradées simulant des écarts dynamiques réels, le système maintient 75,5 % de succès avec une masse augmentée de 25 %, 89 % sous une latence de 30 millisecondes, et 91,5 % sur sol à faible friction. Combinées, ces perturbations n'abaissent le taux qu'à 99 %, ce qui est remarquable. Pour les industriels et les laboratoires déployant des humanoïdes dans des environnements réels non contrôlés, cette robustesse en transfert zéro-shot représente un saut qualitatif par rapport aux approches modulaires classiques qui nécessitent des comportements préprogrammés pour chaque scénario.
La récupération après perturbation reste l'un des problèmes les plus difficiles de la robotique humanoïde, domaine où Boston Dynamics, Figure AI ou Agility Robotics investissent massivement. La plupart des systèmes actuels recourent à des pipelines hiérarchiques séparant détection, planification et exécution. RecoverFormer mise au contraire sur une politique unifiée, dont les modes de comportement émergent spontanément, validé par une analyse t-SNE sur 300 épisodes, sans étiquetage supervisé. La prochaine étape logique sera le déploiement sur robot réel, hors simulation, pour confirmer que cette généralisation tient face aux imprévisibilités du monde physique.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




