Aller au contenu principal
MOMO : un cadre pour l'apprentissage et l'adaptation des compétences robotiques, physiques, verbales et graphiques
RobotiquearXiv cs.RO6sem

MOMO : un cadre pour l'apprentissage et l'adaptation des compétences robotiques, physiques, verbales et graphiques

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté MOMO, un framework permettant à des utilisateurs non experts de programmer et d'adapter des robots industriels sans écrire une seule ligne de code. Le système repose sur trois modalités d'interaction complémentaires : la guidance physique directe (kinesthetic teaching), les commandes en langage naturel, et une interface web graphique permettant de visualiser les trajectoires, ajuster des paramètres et déplacer des points de passage par glisser-déposer. La validation a eu lieu sur un robot industriel à 7 degrés de liberté à contrôle par couple, présenté lors du salon Automatica 2025, l'une des principales foires mondiales de robotique et d'automatisation.

Ce que MOMO change concrètement, c'est la barrière entre l'opérateur et la machine. Jusqu'ici, modifier le comportement d'un robot industriel nécessitait des compétences en programmation ou l'intervention d'un intégrateur spécialisé. Avec ce framework, un technicien peut corriger une trajectoire en guidant physiquement le bras, demander verbalement une modification sémantique ("sois plus lent sur le bord droit"), ou retoucher visuellement la courbe dans un navigateur. L'architecture LLM adoptée est dite "à base d'outils" : le modèle de langage ne génère pas de code libre, mais sélectionne et paramètre des fonctions prédéfinies, ce qui limite les risques d'erreurs et de comportements imprévus sur un vrai site de production.

L'article s'inscrit dans un effort de recherche plus large pour démocratiser la robotique flexible, particulièrement dans un contexte de pénurie de compétences techniques et de demande croissante de personnalisation en usine. Les cinq composants du système, détection d'intention humaine par énergie, LLM outillé, Kernelized Movement Primitives pour l'encodage du mouvement, Virtual Fixtures probabilistes et contrôle ergodique pour la finition de surface, forment une architecture modulaire. Le fait que la même approche LLM fonctionne aussi bien pour les mouvements classiques que pour le contrôle ergodique (utilisé en polissage ou peinture de surface) suggère une généralisation possible à un large spectre de tâches industrielles. Les prochaines étapes pourraient inclure des tests en conditions réelles de production et une éventuelle commercialisation via des partenariats industriels.

Impact France/UE

La démocratisation de la programmation robotique via interfaces multimodales pourrait bénéficier aux PME manufacturières européennes confrontées à une pénurie de compétences en automatisation industrielle.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
1NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

RobotiqueOpinion
1 source
Modélisation dynamique par apprentissage automatique et contrôle robuste pour robots continus à tendons
2arXiv cs.RO 

Modélisation dynamique par apprentissage automatique et contrôle robuste pour robots continus à tendons

Des chercheurs ont publié le 29 avril 2026 une nouvelle approche pour contrôler les robots continus à tendons (TDCRs), une catégorie de robots souples dont les mouvements sont pilotés par des câbles ou tendons internes. Ces systèmes sont particulièrement difficiles à modéliser en raison de non-linéarités complexes : hystérésis de friction, compliance de transmission et comportements dynamiques qui s'amplifient sur de longues séquences de mouvements. L'équipe propose un cadre d'apprentissage différentiable combinant un modèle de dynamique haute fidélité basé sur des réseaux GRU (Gated Recurrent Units) avec une politique de contrôle neuronal entraînée de bout en bout. Le modèle intègre une connectivité bidirectionnelle multi-canaux et une prédiction résiduelle pour supprimer l'accumulation d'erreurs lors des prédictions auto-régressives sur le long terme. Les expériences ont été menées sur un robot physique à trois sections, validant les performances en conditions réelles. Cette approche dépasse les méthodes classiques basées sur le jacobien, qui génèrent des oscillations auto-entretenues problématiques pour la précision et la stabilité. En traitant le modèle de dynamique comme un "pont de gradient", la politique de contrôle apprend implicitement à compenser les non-linéarités intrinsèques du robot sans qu'il soit nécessaire de les modéliser explicitement. Le résultat est un suivi de trajectoire précis et une robustesse supérieure face à des charges utiles inconnues, c'est-à-dire des poids non intégrés lors de l'entraînement, ce qui est critique pour les applications en environnements variables. Les robots continus à tendons suscitent un intérêt croissant en chirurgie mini-invasive, inspection industrielle et manipulation en espaces confinés, précisément parce que leur souplesse leur permet d'évoluer là où les bras rigides échouent. Le principal verrou restait leur contrôle fiable dans des conditions dynamiques réelles. Cette publication s'inscrit dans une tendance plus large d'intégration de l'apprentissage automatique dans la robotique physique, où les modèles appris remplacent progressivement les équations analytiques trop simplificatrices. Les prochaines étapes pourraient inclure la généralisation à des robots à plus de sections, l'adaptation en temps réel au vieillissement mécanique des tendons, et une intégration dans des systèmes chirurgicaux assistés.

RobotiqueOpinion
1 source
OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain
3arXiv cs.RO 

OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain

Des chercheurs ont présenté OmniUMI, un nouveau cadre d'apprentissage robotique conçu pour dépasser les limites des systèmes actuels en intégrant des données multimodales physiquement ancrées. Là où les interfaces de type UMI existantes se limitent à des observations visuelles RGB et des trajectoires, OmniUMI capture simultanément six types de données : images RGB, profondeur, trajectoire, retour tactile, force de préhension interne et couple d'interaction externe. Ce dispositif tient dans la main et maintient une cohérence entre la phase de collecte des démonstrations humaines et le déploiement sur le robot, grâce à une conception d'embodiment partagé. Les politiques apprises reposent sur une extension de la diffusion policy intégrant ces signaux visuels, tactiles et de force, déployée via une exécution à impédance pour réguler conjointement le mouvement et le contact. Les expériences valident le système sur des tâches comme le saisissement et le dépôt sensibles à la force, l'effacement de surface interactif, et le relâchement sélectif guidé par le toucher. La portée de cette avancée tient à un problème fondamental de la robotique : les tâches impliquant un contact physique riche, comme assembler des pièces fragiles, manipuler des objets déformables ou effectuer des gestes précis avec pression calibrée, restent hors de portée des systèmes purement visuels. La vision seule ne peut pas inférer la dynamique de contact, la force exercée, ni les micro-glissements tactiles. En permettant au démonstrateur humain de percevoir et moduler naturellement ces forces via un retour bilatéral du préhenseur, OmniUMI aligne la démonstration humaine sur la réalité physique du robot, rendant les données collectées directement exploitables. Le contexte est celui d'une course à la manipulation robotique généraliste, où des laboratoires et entreprises comme Google DeepMind, Physical Intelligence ou Boston Dynamics investissent massivement. Les interfaces UMI, popularisées ces dernières années pour leur facilité de collecte de données à grande échelle, butaient précisément sur ce mur du toucher et de la force. OmniUMI ouvre une voie vers des systèmes capables d'apprendre des tâches industrielles ou médicales où la précision physique est critique, tout en conservant le paradigme de démonstration humaine qui a fait le succès des approches d'imitation à grande échelle.

RobotiqueOpinion
1 source
GS-Playground : un simulateur photoréaliste haute cadence pour l'apprentissage robotique par vision
4arXiv cs.RO 

GS-Playground : un simulateur photoréaliste haute cadence pour l'apprentissage robotique par vision

Des chercheurs ont publié sur arXiv un article présentant GS-Playground, un simulateur haute performance conçu pour entraîner des robots à partir de données visuelles. Le système repose sur une combinaison inédite : un moteur physique parallèle développé spécifiquement pour fonctionner avec le rendu 3D Gaussian Splatting (3DGS), une technique de reconstruction visuelle photorréaliste. Le résultat est un débit de 10 000 images par seconde à une résolution de 640x480 pixels, ce qui représente une rupture significative par rapport aux simulateurs existants. GS-Playground intègre également un pipeline automatisé baptisé Real2Sim, capable de reconstruire des environnements simulés fidèles à la réalité physique à partir de scènes du monde réel, sans modélisation manuelle fastidieuse. L'enjeu est majeur pour la robotique et l'IA incarnée : entraîner un robot à agir dans le monde réel requiert des millions de simulations, mais les simulateurs visuellement réalistes sont jusqu'ici trop lents pour fonctionner à grande échelle. GS-Playground réduit drastiquement ce goulot d'étranglement computationnel, rendant possible l'apprentissage par renforcement visuel à grande échelle. Les expériences présentées couvrent trois catégories de tâches : la locomotion, la navigation et la manipulation d'objets au contact, trois domaines où la précision visuelle est déterminante pour transférer les comportements appris en simulation vers des robots réels. Le problème du "sim-to-real gap", c'est-à-dire l'écart entre ce qu'un robot apprend en simulation et ce qu'il peut réellement faire dans le monde physique, est l'un des verrous centraux de la robotique moderne. Les simulateurs massivement parallèles comme Isaac Gym d'NVIDIA ont déjà transformé l'apprentissage moteur basé sur la proprioception, mais ils restent aveugles sur le plan visuel. GS-Playground s'attaque à cette limite en combinant physique et rendu réaliste dans un seul pipeline cohérent. Si les résultats se confirment hors du cadre académique, ce type d'infrastructure pourrait accélérer sensiblement le développement de robots capables d'opérer dans des environnements non structurés.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour