Aller au contenu principal
Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique
RecherchearXiv cs.RO6sem· 1 min de lecture

Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique

Source originale ↗·

Des chercheurs d'AgibotTech ont publié sur arXiv un système baptisé Genie Sim PanoRecon, capable de reconstruire des scènes 3D photoréalistes à partir d'une seule image panoramique en quelques secondes. La méthode repose sur le Gaussian splatting, une technique de représentation 3D par nuages de points gaussiens. Concrètement, le panorama d'entrée est décomposé en six faces d'une carte cubique non superposées, traitées en parallèle puis réassemblées de façon cohérente. Pour garantir la cohérence géométrique entre les différentes vues, l'équipe a développé une stratégie de fusion guidée par la profondeur, couplée à un module d'injection de profondeur sans entraînement supplémentaire, qui oriente le réseau monoculaire vers la génération de Gaussiens 3D cohérents. Le système a été intégré directement dans Genie Sim, une plateforme de simulation pilotée par LLM dédiée à la génération de données synthétiques pour l'IA incarnée.

L'enjeu central est de réduire drastiquement le coût et le temps de création d'environnements 3D pour entraîner des robots à la manipulation d'objets. Là où la construction manuelle d'une scène 3D réaliste peut prendre des heures ou des jours, PanoRecon le fait en quelques secondes à partir d'une simple photo panoramique. Pour les équipes de robotique, cela ouvre la voie à une génération massive et automatisée de scènes d'entraînement variées, ce qui est un verrou majeur dans le développement de robots polyvalents capables de generaliser à des environnements nouveaux.

Le contexte est celui de la course à la simulation photorealiste pour l'IA incarnée (embodied AI), un champ où des acteurs comme NVIDIA, Google DeepMind et des startups chinoises investissent massivement pour combler le fossé entre simulation et monde réel. AgibotTech s'inscrit dans cette dynamique en combinant la puissance des LLM pour piloter la simulation et une reconstruction 3D rapide pour fournir des décors crédibles. Le code source est disponible sur GitHub, ce qui suggère une volonté de fédérer une communauté autour de Genie Sim comme standard ouvert pour la génération de données robotiques synthétiques.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Génération de champs vectoriels guidée par un modèle de diffusion basé sur les scores
1arXiv cs.RO 

Génération de champs vectoriels guidée par un modèle de diffusion basé sur les scores

Des chercheurs ont publié sur arXiv un article (référence 2604.24487) présentant un nouveau cadre algorithmique baptisé SGVF, pour Score-Induced Guiding Vector Field. L'objectif : améliorer radicalement la capacité des robots à suivre des trajectoires complexes, là où les méthodes classiques s'effondrent. Le SGVF exploite les modèles génératifs à base de score, une famille de techniques issues des modèles de diffusion, pour construire des champs de vecteurs directement à partir de distributions de données. Le système apprend des champs tangents depuis des nuages de points en appliquant trois contraintes géométriques : norme unitaire, orthogonalité et cohérence directionnelle. Des expériences menées sur des environnements de navigation robotique planaire démontrent que le SGVF réussit là où les champs de vecteurs classiques échouent. Le code source et une vidéo de démonstration sont disponibles sur GitHub. Cette avancée répond à une limitation structurelle des Guiding Vector Fields traditionnels : ils supposent que les trajectoires sont lisses, ordonnées et mono-branche. Dès qu'un chemin est non ordonné, multi-branche ou issu d'un modèle probabiliste, ces méthodes classiques deviennent inutilisables. Le SGVF, en apprenant directement depuis les données, s'affranchit de la segmentation manuelle des trajectoires et gère des topologies complexes comme les bifurcations ou les pseudo-variétés. Pour la robotique mobile et les systèmes de navigation autonome, c'est un changement de paradigme : il devient possible de guider un robot le long de chemins que l'on ne pourrait pas décrire analytiquement à l'avance. Les modèles de diffusion ont révolutionné la génération d'images et de texte au cours des trois dernières années, mais leur application au contrôle géométrique et à la robotique reste un territoire en friche. Ce travail établit un lien théorique formel entre la disparition du score dans les modèles de diffusion et les singularités des champs de vecteurs guidants, posant ainsi des bases mathématiques solides pour un pont entre l'IA générative et le contrôle géométrique. Les enjeux dépassent la navigation planaire : à terme, ces techniques pourraient s'appliquer à des robots évoluant dans des environnements tridimensionnels, ou à la planification de mouvements dans des espaces de configuration complexes. La communauté robotique dispose désormais d'une piste sérieuse pour intégrer la puissance des modèles génératifs modernes dans des systèmes de contrôle rigoureux.

RecherchePaper
1 source
GenAssets : génération d'assets 3D en espace latent
2arXiv cs.RO 

GenAssets : génération d'assets 3D en espace latent

Des chercheurs ont présenté GenAssets, une nouvelle méthode de génération d'objets 3D destinés aux simulateurs de conduite autonome, décrite dans un article arXiv publié fin avril 2026. Le système repose sur un modèle de diffusion latente 3D capable d'apprendre directement depuis des données LiDAR et caméra collectées en conditions réelles, pour ensuite générer des véhicules et piétons en trois dimensions avec une géométrie et une apparence complètes. L'approche dite "reconstruire-puis-générer" fonctionne en deux temps : elle commence par exploiter un rendu neural conscient des occlusions, entraîné sur plusieurs scènes, pour construire un espace latent de haute qualité représentant les objets observés ; un modèle de diffusion opère ensuite sur cet espace pour produire des assets variés et réalistes. Les auteurs affirment que GenAssets surpasse les méthodes existantes de reconstruction et de génération sur des benchmarks standardisés. La simulation multi-capteurs est au cœur du développement sûr des systèmes de conduite autonome : sans assets 3D diversifiés et réalistes, il est impossible de tester les véhicules dans des situations rares ou dangereuses à reproduire dans la réalité. Le problème central que GenAssets résout est celui des données en conditions sauvages ("in-the-wild"), où les acteurs de la scène, autres voitures, cyclistes, piétons, sont souvent capturés sous des angles limités et partiellement masqués par d'autres objets. Les méthodes classiques de reconstruction par rendu neural échouent à produire des assets utilisables depuis des points de vue différents de l'observation d'origine, ce qui restreint fortement leur utilité en simulation. GenAssets débloque une création de contenu scalable et diverse, directement exploitable pour entraîner et valider des systèmes d'autonomie. La génération d'environnements synthétiques de haute fidélité est un enjeu stratégique pour des acteurs comme Waymo, Tesla, Cruise ou Mobileye, qui dépendent de milliards de kilomètres simulés pour compenser le coût prohibitif des tests réels. Les approches par diffusion ont connu une montée en puissance spectaculaire depuis 2022, mais leur application aux scènes de conduite réelles restait freinée par la rareté et la partialité des observations terrain. GenAssets ouvre une voie vers des pipelines entièrement automatisés de création d'assets, alimentés directement par les données collectées par les flottes de véhicules, ce qui pourrait significativement accélérer les cycles de développement et d'homologation des systèmes autonomes.

UELes constructeurs et équipementiers européens du secteur automobile pourraient bénéficier indirectement de cette avancée pour améliorer leurs pipelines de simulation en conduite autonome.

RecherchePaper
1 source
STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
3Apple Machine Learning 

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images. L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives. Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

RecherchePaper
1 source
M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
4arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic