Aller au contenu principal
GenAssets : génération d'assets 3D en espace latent
RecherchearXiv cs.RO6sem· 2 min de lecture

GenAssets : génération d'assets 3D en espace latent

Source originale ↗·

Des chercheurs ont présenté GenAssets, une nouvelle méthode de génération d'objets 3D destinés aux simulateurs de conduite autonome, décrite dans un article arXiv publié fin avril 2026. Le système repose sur un modèle de diffusion latente 3D capable d'apprendre directement depuis des données LiDAR et caméra collectées en conditions réelles, pour ensuite générer des véhicules et piétons en trois dimensions avec une géométrie et une apparence complètes. L'approche dite "reconstruire-puis-générer" fonctionne en deux temps : elle commence par exploiter un rendu neural conscient des occlusions, entraîné sur plusieurs scènes, pour construire un espace latent de haute qualité représentant les objets observés ; un modèle de diffusion opère ensuite sur cet espace pour produire des assets variés et réalistes. Les auteurs affirment que GenAssets surpasse les méthodes existantes de reconstruction et de génération sur des benchmarks standardisés.

La simulation multi-capteurs est au cœur du développement sûr des systèmes de conduite autonome : sans assets 3D diversifiés et réalistes, il est impossible de tester les véhicules dans des situations rares ou dangereuses à reproduire dans la réalité. Le problème central que GenAssets résout est celui des données en conditions sauvages ("in-the-wild"), où les acteurs de la scène, autres voitures, cyclistes, piétons, sont souvent capturés sous des angles limités et partiellement masqués par d'autres objets. Les méthodes classiques de reconstruction par rendu neural échouent à produire des assets utilisables depuis des points de vue différents de l'observation d'origine, ce qui restreint fortement leur utilité en simulation. GenAssets débloque une création de contenu scalable et diverse, directement exploitable pour entraîner et valider des systèmes d'autonomie.

La génération d'environnements synthétiques de haute fidélité est un enjeu stratégique pour des acteurs comme Waymo, Tesla, Cruise ou Mobileye, qui dépendent de milliards de kilomètres simulés pour compenser le coût prohibitif des tests réels. Les approches par diffusion ont connu une montée en puissance spectaculaire depuis 2022, mais leur application aux scènes de conduite réelles restait freinée par la rareté et la partialité des observations terrain. GenAssets ouvre une voie vers des pipelines entièrement automatisés de création d'assets, alimentés directement par les données collectées par les flottes de véhicules, ce qui pourrait significativement accélérer les cycles de développement et d'homologation des systèmes autonomes.

Impact France/UE

Les constructeurs et équipementiers européens du secteur automobile pourraient bénéficier indirectement de cette avancée pour améliorer leurs pipelines de simulation en conduite autonome.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états
1Apple Machine Learning 

L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états

Des chercheurs ont publié une étude démontrant une limite fondamentale des State Space Models (SSMs), la famille d'architectures neuronales considérée comme la principale alternative aux Transformers pour le traitement de séquences longues. Leur résultat théorique, formellement prouvé, établit qu'aucun SSM ne peut résoudre avec précision ce qu'ils appellent un problème de "génération véritablement longue" — c'est-à-dire des tâches nécessitant de maintenir et manipuler de l'information sur des contextes dépassant la capacité effective de leur mémoire fixe. Cette conclusion s'applique aux architectures SSM dans leur forme standard, indépendamment de leur taille ou de leur entraînement. Cette découverte fragilise l'argument central qui faisait la réputation des SSMs : leur efficacité sur les longues séquences. Contrairement aux Transformers, dont la complexité computationnelle croît quadratiquement avec la longueur du contexte, les SSMs fonctionnent en mémoire fixe avec une complexité linéaire — ce qui les rendait théoriquement supérieurs pour les tâches longue portée. Si cette limite est confirmée, elle remet en question l'usage des SSMs dans des applications critiques comme la synthèse de documents longs, le raisonnement multi-étapes ou la génération de code étendu. Les chercheurs proposent néanmoins une solution : doter les SSMs d'un accès interactif à des outils externes. Cette approche, qui s'inscrit dans la tendance plus large du "tool use" en IA, permettrait aux modèles de contourner leur contrainte mémoire en déléguant certaines opérations à des systèmes externes. Les SSMs rejoignent ainsi les Transformers dans une convergence vers des architectures hybrides augmentées d'outils, suggérant que la prochaine génération de modèles efficaces ne sera pas définie par l'architecture seule, mais par sa capacité à s'interfacer avec son environnement.

RecherchePaper
1 source
Les agents autonomes face au défi entre intention et exécution
2Amazon Science 

Les agents autonomes face au défi entre intention et exécution

Des chercheurs en intelligence artificielle ont publié une étude approfondie sur ce qu'ils nomment l'« écart entre intention et exécution » dans les systèmes d'agents IA, le fossé entre ce qu'un modèle de langage entend faire et ce que le logiciel qui l'entoure réalise concrètement. Pour l'illustrer : un modèle peut vouloir corriger une seule instance d'une fonction dans du code, mais le harnais, le logiciel qui orchestre ses actions et gère ses interactions avec les outils, en modifie involontairement plusieurs. Pour combler cet écart sans aucun ajustement spécifique à une tâche, les chercheurs ont développé Simple Strands Agent (SSA), un harnais léger et personnalisable à agent unique. Testé sur plusieurs benchmarks de référence, dont SWE-Pro, SWE-Verified (qui évaluent la correction automatique de dépôts de code réels) et Terminal-Bench2 (environnements de terminal interactifs), SSA obtient des gains de performance constants sur plusieurs familles de modèles. Ce travail pointe un problème structurel souvent ignoré dans l'évaluation des agents IA : les performances publiées sur les benchmarks reflètent autant la qualité de l'infrastructure d'évaluation que la capacité intrinsèque du modèle. Des facteurs apparemment triviaux, délais d'expiration lors des interactions avec l'environnement, stabilité de l'infrastructure, contraintes de ressources, provoquent des variations de performance significatives. Les auteurs baptisent ce phénomène le « benchmaxing » : la tendance à optimiser les scores publiés sans nécessairement améliorer la capacité réelle du système. Pour les équipes qui déploient des agents en production, cela signifie qu'un gain impressionnant sur un benchmark peut disparaître entièrement dans un contexte légèrement différent, rendant les comparaisons entre systèmes peu fiables. L'étude s'inscrit dans un débat plus large sur la conception des agents IA. Pendant des années, la priorité a été donnée aux optimisations spécifiques : prompts ajustés, outils sur mesure, graphes d'exécution spécialisés. Or les chercheurs montrent que ces gains sont souvent fragiles, ce qui fonctionne pour un modèle ou une version donnée se dégrade ou régresse avec les modèles suivants, car ces optimisations surajustent implicitement le comportement d'un modèle particulier. La conclusion est qu'il faut désormais identifier des principes de conception invariants, valables quel que soit le modèle sous-jacent. L'interface entre modèle et harnais devient ainsi un domaine de recherche central, à l'image du rôle d'un système d'exploitation vis-à-vis d'un processeur. Les auteurs soulignent également que cette conception n'est pas entièrement agnostique au modèle : différentes familles de modèles ont des préférences distinctes en matière d'utilisation des outils et d'interprétation du contexte, faisant de la coconception modèle-harnais un levier décisif pour atteindre des performances optimales.

RecherchePaper
1 source
Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique
3arXiv cs.RO 

Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique

Des chercheurs d'AgibotTech ont publié sur arXiv un système baptisé Genie Sim PanoRecon, capable de reconstruire des scènes 3D photoréalistes à partir d'une seule image panoramique en quelques secondes. La méthode repose sur le Gaussian splatting, une technique de représentation 3D par nuages de points gaussiens. Concrètement, le panorama d'entrée est décomposé en six faces d'une carte cubique non superposées, traitées en parallèle puis réassemblées de façon cohérente. Pour garantir la cohérence géométrique entre les différentes vues, l'équipe a développé une stratégie de fusion guidée par la profondeur, couplée à un module d'injection de profondeur sans entraînement supplémentaire, qui oriente le réseau monoculaire vers la génération de Gaussiens 3D cohérents. Le système a été intégré directement dans Genie Sim, une plateforme de simulation pilotée par LLM dédiée à la génération de données synthétiques pour l'IA incarnée. L'enjeu central est de réduire drastiquement le coût et le temps de création d'environnements 3D pour entraîner des robots à la manipulation d'objets. Là où la construction manuelle d'une scène 3D réaliste peut prendre des heures ou des jours, PanoRecon le fait en quelques secondes à partir d'une simple photo panoramique. Pour les équipes de robotique, cela ouvre la voie à une génération massive et automatisée de scènes d'entraînement variées, ce qui est un verrou majeur dans le développement de robots polyvalents capables de generaliser à des environnements nouveaux. Le contexte est celui de la course à la simulation photorealiste pour l'IA incarnée (embodied AI), un champ où des acteurs comme NVIDIA, Google DeepMind et des startups chinoises investissent massivement pour combler le fossé entre simulation et monde réel. AgibotTech s'inscrit dans cette dynamique en combinant la puissance des LLM pour piloter la simulation et une reconstruction 3D rapide pour fournir des décors crédibles. Le code source est disponible sur GitHub, ce qui suggère une volonté de fédérer une communauté autour de Genie Sim comme standard ouvert pour la génération de données robotiques synthétiques.

RecherchePaper
1 source
Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent
4Apple Machine Learning 

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

Des chercheurs ont publié des travaux sur une nouvelle approche d'optimisation du raisonnement dans les grands modèles de langage (LLM), baptisée "Adaptive Thinking". Le principe : permettre aux modèles d'ajuster dynamiquement leur budget de calcul selon la complexité réelle d'une requête, plutôt que d'appliquer un niveau fixe de raisonnement à chaque réponse. L'étude exploite la technique du chain-of-thought (CoT), qui consiste à générer une chaîne de raisonnement intermédiaire avant de produire une réponse, et introduit la notion de raisonnement dans l'espace latent, une représentation interne au modèle. L'enjeu est directement économique et qualitatif : allouer trop de capacité de calcul à des questions simples est un gaspillage ; en allouer trop peu à des questions complexes dégrade la performance. Les chercheurs utilisent la "self-consistency", c'est-à-dire le degré d'accord entre plusieurs chemins de raisonnement parallèles, comme indicateur proxy de la nécessité réelle de raisonner. Cette métrique permet au modèle de détecter automatiquement si une question mérite un effort cognitif étendu ou une réponse directe. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires depuis l'émergence des modèles de type "reasoning" comme o1 d'OpenAI ou DeepSeek-R1 : comment rendre le raisonnement à l'inférence à la fois plus puissant et plus efficient. Trouver le bon équilibre entre budget de calcul et performance est devenu un axe de compétition majeur, notamment pour les applications en temps réel où la latence et le coût par requête sont critiques.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic