Aller au contenu principal
JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique
RobotiquearXiv cs.RO2sem

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau modèle de fondation baptisé JoyAI-RA 0.1, conçu pour doter les robots d'une autonomie généralisable dans des environnements réels et variés. Ce modèle de type vision-langage-action (VLA) s'appuie sur un cadre d'entraînement multi-sources et multi-niveaux inédit : il combine des données issues du web, des vidéos en vue subjective de manipulations humaines à grande échelle, des trajectoires générées par simulation, et des données collectées sur de vrais robots. Selon les résultats présentés, JoyAI-RA surpasse les méthodes les plus avancées sur des benchmarks en simulation comme en environnement réel, particulièrement sur des tâches variées nécessitant une capacité de généralisation.

L'enjeu central de ce travail est la généralisation inter-robots, un problème récurrent dans le domaine : les modèles entraînés sur un type de robot peinent à s'adapter à d'autres architectures mécaniques ou capteurs différents. JoyAI-RA propose une unification explicite des espaces d'action, ce qui lui permet de transférer efficacement des comportements appris depuis des vidéos de manipulation humaine vers le contrôle robotique. Ce pont entre geste humain et mouvement machine est particulièrement prometteur pour réduire les coûts de collecte de données et accélérer le déploiement de robots polyvalents dans des contextes industriels, logistiques ou domestiques.

La robotique autonome bute depuis des années sur deux obstacles structurels : la faible diversité des jeux de données disponibles et l'impossibilité de réutiliser des comportements appris d'un robot à l'autre. JoyAI-RA s'inscrit dans une tendance de fond qui voit émerger des modèles de fondation généralistes pour la robotique, à l'image de RT-2 de Google DeepMind ou d'OpenVLA. La particularité de cette approche réside dans l'intégration massive de vidéos de manipulation humaine comme source de supervision implicite, une stratégie qui contourne partiellement la rareté des données robotiques annotées. La publication en version 0.1 suggère que l'équipe, vraisemblablement liée à l'écosystème chinois au vu du nom JoyAI, entend faire évoluer ce modèle rapidement.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

SAMe : un moteur de cartographie anatomique sémantique pour l'échographie robotique
1arXiv cs.RO 

SAMe : un moteur de cartographie anatomique sémantique pour l'échographie robotique

Des chercheurs ont présenté SAMe, un moteur de cartographie anatomique sémantique conçu pour automatiser l'initialisation des examens d'échographie robotique. Publié sur arXiv (référence 2604.25646), ce système résout l'un des verrous majeurs de l'échographie autonome : savoir quoi scanner, où commencer et comment s'adapter à l'anatomie propre de chaque patient. Concrètement, SAMe fonctionne en trois étapes : il traduit une plainte clinique vague en organe cible précis, génère une représentation anatomique personnalisée à partir d'une simple photo externe du corps, puis calcule automatiquement la position et l'orientation de la sonde en six degrés de liberté, sans recours à une imagerie préopératoire IRM ou scanner. Lors des tests sur robot réel, SAMe a atteint un taux de localisation correcte de 97,3 % pour le foie et de 81,7 % pour le rein, surpassant dans les deux cas la méthode de référence basée sur des heuristiques de surface. Ces résultats représentent une avancée décisive pour rendre l'échographie robotique véritablement autonome. Jusqu'ici, même les systèmes les plus sophistiqués dépendaient d'un expert humain pour initialiser le scan, c'est-à-dire positionner correctement la sonde en début d'examen. SAMe supprime cette dépendance en intégrant une couche de compréhension anatomique explicite directement dans la boucle de contrôle du robot. Le moteur est également très léger : l'inférence pour un organe prend seulement 0,08 seconde, ce qui le rend compatible avec des systèmes embarqués et des contextes cliniques temps réel. L'échographie robotique se développe dans un contexte de tension croissante entre la demande mondiale d'imagerie médicale et la pénurie de spécialistes qualifiés, notamment dans les zones sous-dotées. Les systèmes existants avaient progressé sur le contrôle local de l'image et la régulation du contact avec la peau, mais butaient sur cette étape d'initialisation. SAMe s'inscrit dans une ambition plus large : des pipelines d'échographie autonome pilotés par la plainte du patient, sans intervention spécialisée à chaque étape. La prochaine étape attendue sera l'intégration de cette couche anatomique avec les modules de navigation et d'interprétation d'image pour former un système d'échographie entièrement autonome de bout en bout.

RobotiqueOpinion
1 source
X Square Robot lance WALL-B, un modèle d'IA embarquée pour usage domestique
2Pandaily 

X Square Robot lance WALL-B, un modèle d'IA embarquée pour usage domestique

La startup chinoise X Square Robot a présenté le 21 avril 2026 WALL-B, qu'elle décrit comme le premier modèle fondamental d'IA incarnée au monde basé sur une architecture World Unified Model (WUM). Contrairement aux approches traditionnelles de type Vision-Language-Action (VLA), WALL-B fusionne nativement la vision, le langage, le mouvement et la prédiction physique dans un entraînement conjoint. Le modèle repose sur trois capacités clés : la multimodalité native, la compréhension de la dynamique du monde physique, et la capacité d'auto-amélioration après un échec. Pour construire ce modèle, X Square Robot a utilisé une combinaison de données expérimentales et de scénarios réels, incluant des données collectées dans des centaines de foyers. La société a annoncé qu'en l'espace de 35 jours, des robots équipés de WALL-B et d'un hardware amélioré seront déployés dans de vraies maisons, avec un recrutement d'utilisateurs déjà lancé. Des détails techniques supplémentaires seront dévoilés le 27 avril lors de la première conférence sur les applications de l'IA du Guangdong. Ce lancement marque une rupture significative dans la robotique domestique. Les architectures VLA classiques souffrent de pertes d'information entre leurs modules et peinent à modéliser la physique du monde réel, deux limitations directement adressées par WALL-B. La capacité d'auto-évolution après l'échec est particulièrement notable : elle permettrait à un robot de s'adapter aux imprévus du quotidien sans intervention humaine, ce qui est le principal obstacle à la commercialisation grand public de robots domestiques. Pour les utilisateurs, cela ouvre la voie à des assistants capables de naviguer dans l'environnement complexe et imprévisible d'un foyer réel. La Chine investit massivement dans la robotique humanoïde et incarnée, avec une concurrence intense entre startups locales et géants comme Huawei ou Xiaomi. X Square Robot s'inscrit dans cette dynamique en ciblant explicitement le marché résidentiel, là où des acteurs comme Figure AI ou Boston Dynamics se concentrent davantage sur l'industrie. Pour lever les freins liés à la vie privée, la société a intégré une anonymisation visuelle locale, une autorisation explicite des utilisateurs et des restrictions d'usage strictes. La prochaine étape sera le déploiement en conditions réelles dans des foyers, un test grandeur nature qui déterminera si l'approche WUM tient ses promesses face aux exigences du monde domestique.

RobotiqueActu
1 source
RISE : politique robotique auto-améliorante avec modèle du monde compositionnel
3arXiv cs.RO 

RISE : politique robotique auto-améliorante avec modèle du monde compositionnel

Des chercheurs ont présenté RISE, un framework d'apprentissage par renforcement pour robots qui s'améliore sans interaction physique coûteuse. Publié sur arXiv (2602.11075), le système repose sur un modèle du monde compositional constitué de deux blocs distincts : un modèle de dynamique contrôlable qui prédit l'évolution visuelle de la scène depuis plusieurs angles de caméra, et un modèle d'évaluation de la progression qui note les résultats imaginés. Ces deux composants alimentent une boucle fermée dans laquelle le robot simule des séquences d'actions en imagination, estime leur qualité, puis met à jour sa politique sans jamais bouger un seul moteur. Testé sur trois tâches réelles, RISE obtient des gains spectaculaires : +35 % en tri dynamique de briques, +45 % pour emballer un sac à dos, et +35 % pour fermer une boîte. Ce résultat compte car il s'attaque à un problème fondamental de la robotique moderne : les modèles Vision-Language-Action, malgré des capacités croissantes, restent fragiles dès qu'une manipulation implique des contacts physiques ou une dynamique rapide. La moindre déviation d'exécution peut déclencher une cascade d'échecs. L'apprentissage par renforcement classique permettrait théoriquement de rendre les robots plus robustes, mais il exige des milliers d'essais sur du matériel réel, avec des risques de casse et des procédures de remise en état longues et onéreuses. RISE contourne cette contrainte en déplaçant l'essentiel de l'apprentissage dans un espace imaginaire, rendant l'amélioration continue à la fois sûre et scalable. La robotique de manipulation est aujourd'hui dominée par l'imitation, on montre au robot des démonstrations humaines, et il reproduit. Cette approche atteint ses limites dans des environnements non contrôlés, où les objets bougent et les conditions varient. Le mouvement vers des modèles du monde capables de simuler des conséquences futures s'inscrit dans une tendance plus large, partagée avec les travaux sur les world models en jeux vidéo et en conduite autonome. RISE représente une étape concrète vers des robots capables d'auto-amélioration continue, sans dépendre d'un accès permanent à des environnements physiques instrumentés.

RobotiquePaper
1 source
Les 10 meilleurs modèles d'IA physique pour robots en 2026
4MarkTechPost 

Les 10 meilleurs modèles d'IA physique pour robots en 2026

En 2026, une nouvelle génération de modèles d'IA dits "physiques" s'impose comme la colonne vertébrale de la robotique industrielle et de recherche. Ces systèmes ne génèrent pas du texte, mais des commandes motrices : ils permettent à des robots réels d'exécuter des tâches complexes dans des usines, entrepôts et laboratoires. Dix modèles dominent ce paysage. NVIDIA a lancé sa série GR00T N dès mars 2025 au GTC, avec une première version ouverte et personnalisable. La version N1.7, publiée le 17 avril 2026 en accès anticipé, est un modèle de 3 milliards de paramètres, sous licence Apache 2.0, entraîné sur 20 854 heures de vidéo égocentrique humaine couvrant plus de 20 catégories de tâches. NVIDIA a également identifié la première loi d'échelle pour la dextérité robotique : passer de 1 000 à 20 000 heures de données humaines double les performances. Google DeepMind, de son côté, a dévoilé Gemini Robotics 1.5 en septembre 2025, un modèle vision-langage-action bâti sur Gemini 2.0, et a publié le 14 avril 2026 une version Gemini Robotics-ER 1.6 améliorant le raisonnement spatial, développée en collaboration avec Boston Dynamics. Ces avancées marquent un tournant concret pour l'industrie robotique. Des partenaires comme Agile Robots, Agility Robotics, Foxlink, NEURA Robotics et Lightwheel testent ou déploient déjà ces systèmes sur du matériel réel. Les modèles permettent désormais à des robots bimanuels d'accomplir des tâches en plusieurs étapes, de lire des instruments complexes, ou d'apprendre à partir de simples vidéos d'humains au travail, sans nécessiter des mois de génération de données synthétiques. NVIDIA a réduit ce délai à environ 36 heures grâce à son architecture GR00T-Dreams. Pour les opérateurs industriels, cela signifie des cycles de déploiement raccourcis et une polyvalence accrue des robots sans reprogrammation manuelle lourde. Ce bond technologique s'inscrit dans une convergence entre les grands modèles de langage et la robotique physique, amorcée depuis 18 mois environ. Des acteurs comme Physical Intelligence, avec ses modèles pi0 et pi0.5 basés sur le flow matching, Figure AI avec Helix, ou encore OpenVLA et le SmolVLA open-source d'HuggingFace LeRobot, enrichissent un écosystème désormais très dense. NVIDIA s'appuie également sur ses Cosmos World Foundation Models pour simuler des environnements d'entraînement réalistes. La compétition s'intensifie entre approches ouvertes, comme GR00T N1.7, et systèmes propriétaires à accès restreint comme Gemini Robotics 1.5, dont la disponibilité reste limitée à des partenaires sélectionnés. Les prochains mois verront probablement les premières mises en production à grande échelle dans les lignes d'assemblage et la logistique automatisée.

UEL'entreprise allemande NEURA Robotics figure parmi les partenaires industriels testant ces systèmes, et les opérateurs européens de la logistique et de l'assemblage pourraient bénéficier de cycles de déploiement robotique significativement raccourcis.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour