Aller au contenu principal
MiMo-Embodied : rapport technique du modèle de fondation X-Embodied
RobotiquearXiv cs.RO7sem· 1 min de lecture

MiMo-Embodied : rapport technique du modèle de fondation X-Embodied

Source originale ↗·

Xiaomi a publié en open source MiMo-Embodied, un modèle fondamental dit "cross-embodied" conçu pour unifier deux domaines jusqu'ici distincts : la conduite autonome et l'IA incarnée (robots, agents physiques). Selon le rapport technique associé, le modèle établit de nouveaux records sur 29 benchmarks au total, 17 en IA incarnée, couvrant la planification de tâches, la prédiction d'affordance et la compréhension spatiale, et 12 en conduite autonome, sur la perception environnementale, la prédiction d'état et la planification de trajectoire. Il surpasse à la fois les modèles open source, les modèles propriétaires et les systèmes spécialisés sur ces évaluations. Le code et les poids sont disponibles sur GitHub sous l'organisation XiaomiMiMo.

Ce qui rend ce résultat notable, c'est que les deux domaines ont longtemps été traités séparément : un robot domestique et un véhicule autonome semblent peu comparables. Or MiMo-Embodied démontre qu'ils partagent suffisamment de structure sous-jacente, compréhension de l'espace, planification d'action, interaction avec un environnement physique, pour se renforcer mutuellement lors de l'entraînement. Cette synergie, appelée "transfert positif", signifie qu'apprendre à conduire rend le modèle meilleur pour manipuler des objets, et vice versa. Pour l'industrie, cela ouvre la voie à des modèles généraux capables de s'adapter à plusieurs types de corps ou de véhicules sans être réentraînés depuis zéro.

L'approche repose sur un entraînement multi-étapes, une construction soigneuse des données d'entraînement, et un affinage par chain-of-thought (CoT) combiné à du reinforcement learning, des techniques popularisées par les grands modèles de langage mais ici appliquées à des agents physiques. Xiaomi s'inscrit ainsi dans une course internationale au modèle fondamental robotique, aux côtés de Google, Physical Intelligence ou Tesla pour Optimus. La publication en open source constitue un signal fort : l'entreprise mise sur la recherche communautaire pour accélérer le développement, tout en positionnant ses propres écosystèmes matériels, smartphones, robots, voitures connectées, comme terrain d'application naturel.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
1MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
PokeVLA : un modèle vision-langage-action compact enrichi d'une connaissance globale du monde
2arXiv cs.RO 

PokeVLA : un modèle vision-langage-action compact enrichi d'une connaissance globale du monde

Des chercheurs ont publié PokeVLA, un nouveau modèle de fondation léger conçu pour la manipulation robotique, présenté dans un article déposé sur arXiv fin avril 2026. Le système repose sur une architecture Vision-Language-Action (VLA) qui intègre la compréhension visuelle et linguistique directement dans l'apprentissage des actions physiques d'un robot. Pour y parvenir, l'équipe a développé une approche en deux étapes : d'abord, un modèle vision-langage compact baptisé PokeVLM est pré-entraîné sur un jeu de données soigneusement constitué de 2,4 millions d'échantillons couvrant l'ancrage spatial, les affordances et le raisonnement incarné ; ensuite, des représentations spécifiques à la manipulation sont injectées dans l'espace d'action via un apprentissage sémantique multi-vues, un alignement géométrique et un module d'action inédit. Les expériences montrent des performances de pointe sur le benchmark LIBERO-Plus ainsi qu'en déploiement réel, surpassant les modèles comparables en taux de réussite et en robustesse face à diverses perturbations. Le code, les poids du modèle et les scripts de préparation des données seront rendus publics. Ce travail s'attaque à deux limites majeures des modèles VLA existants : leur inefficacité computationnelle et leur faible capacité à raisonner à haut niveau sur l'espace et les objets. En proposant un modèle à la fois compact et performant, PokeVLA ouvre la voie à des robots capables de comprendre leur environnement de manière plus fine sans nécessiter des ressources matérielles considérables. Pour l'industrie de la robotique, cela signifie que des systèmes plus accessibles pourraient atteindre des niveaux de fiabilité jusqu'ici réservés aux modèles volumineux, accélérant potentiellement l'adoption dans des contextes réels comme la logistique, la fabrication ou les soins à domicile. Les modèles VLA connaissent une montée en puissance rapide depuis que des travaux comme RT-2 de Google ou OpenVLA ont démontré l'intérêt de combiner grands modèles de langage et contrôle moteur. La tendance générale pousse vers des modèles toujours plus grands, mais PokeVLA prend le contre-pied en cherchant la compacité sans sacrifier les capacités. La mise en open source annoncée est stratégique : elle permettra à la communauté académique de reproduire les résultats et d'itérer rapidement, ce qui pourrait accélérer l'émergence de robots généralistes abordables dans les prochaines années.

RobotiqueActu
1 source
JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique
3arXiv cs.RO 

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau modèle de fondation baptisé JoyAI-RA 0.1, conçu pour doter les robots d'une autonomie généralisable dans des environnements réels et variés. Ce modèle de type vision-langage-action (VLA) s'appuie sur un cadre d'entraînement multi-sources et multi-niveaux inédit : il combine des données issues du web, des vidéos en vue subjective de manipulations humaines à grande échelle, des trajectoires générées par simulation, et des données collectées sur de vrais robots. Selon les résultats présentés, JoyAI-RA surpasse les méthodes les plus avancées sur des benchmarks en simulation comme en environnement réel, particulièrement sur des tâches variées nécessitant une capacité de généralisation. L'enjeu central de ce travail est la généralisation inter-robots, un problème récurrent dans le domaine : les modèles entraînés sur un type de robot peinent à s'adapter à d'autres architectures mécaniques ou capteurs différents. JoyAI-RA propose une unification explicite des espaces d'action, ce qui lui permet de transférer efficacement des comportements appris depuis des vidéos de manipulation humaine vers le contrôle robotique. Ce pont entre geste humain et mouvement machine est particulièrement prometteur pour réduire les coûts de collecte de données et accélérer le déploiement de robots polyvalents dans des contextes industriels, logistiques ou domestiques. La robotique autonome bute depuis des années sur deux obstacles structurels : la faible diversité des jeux de données disponibles et l'impossibilité de réutiliser des comportements appris d'un robot à l'autre. JoyAI-RA s'inscrit dans une tendance de fond qui voit émerger des modèles de fondation généralistes pour la robotique, à l'image de RT-2 de Google DeepMind ou d'OpenVLA. La particularité de cette approche réside dans l'intégration massive de vidéos de manipulation humaine comme source de supervision implicite, une stratégie qui contourne partiellement la rareté des données robotiques annotées. La publication en version 0.1 suggère que l'équipe, vraisemblablement liée à l'écosystème chinois au vu du nom JoyAI, entend faire évoluer ce modèle rapidement.

RobotiqueOpinion
1 source
RISE : politique robotique auto-améliorante avec modèle du monde compositionnel
4arXiv cs.RO 

RISE : politique robotique auto-améliorante avec modèle du monde compositionnel

Des chercheurs ont présenté RISE, un framework d'apprentissage par renforcement pour robots qui s'améliore sans interaction physique coûteuse. Publié sur arXiv (2602.11075), le système repose sur un modèle du monde compositional constitué de deux blocs distincts : un modèle de dynamique contrôlable qui prédit l'évolution visuelle de la scène depuis plusieurs angles de caméra, et un modèle d'évaluation de la progression qui note les résultats imaginés. Ces deux composants alimentent une boucle fermée dans laquelle le robot simule des séquences d'actions en imagination, estime leur qualité, puis met à jour sa politique sans jamais bouger un seul moteur. Testé sur trois tâches réelles, RISE obtient des gains spectaculaires : +35 % en tri dynamique de briques, +45 % pour emballer un sac à dos, et +35 % pour fermer une boîte. Ce résultat compte car il s'attaque à un problème fondamental de la robotique moderne : les modèles Vision-Language-Action, malgré des capacités croissantes, restent fragiles dès qu'une manipulation implique des contacts physiques ou une dynamique rapide. La moindre déviation d'exécution peut déclencher une cascade d'échecs. L'apprentissage par renforcement classique permettrait théoriquement de rendre les robots plus robustes, mais il exige des milliers d'essais sur du matériel réel, avec des risques de casse et des procédures de remise en état longues et onéreuses. RISE contourne cette contrainte en déplaçant l'essentiel de l'apprentissage dans un espace imaginaire, rendant l'amélioration continue à la fois sûre et scalable. La robotique de manipulation est aujourd'hui dominée par l'imitation, on montre au robot des démonstrations humaines, et il reproduit. Cette approche atteint ses limites dans des environnements non contrôlés, où les objets bougent et les conditions varient. Le mouvement vers des modèles du monde capables de simuler des conséquences futures s'inscrit dans une tendance plus large, partagée avec les travaux sur les world models en jeux vidéo et en conduite autonome. RISE représente une étape concrète vers des robots capables d'auto-amélioration continue, sans dépendre d'un accès permanent à des environnements physiques instrumentés.

RobotiquePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic