Recherche — page 7

671 articles · page 7 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

LLMs Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

GenAssets : génération d'assets 3D en espace latent

Des chercheurs ont présenté GenAssets, une nouvelle méthode de génération d'objets 3D destinés aux simulateurs de conduite autonome, décrite dans un article arXiv publié fin avril 2026. Le système repose sur un modèle de diffusion latente 3D capable d'apprendre directement depuis des données LiDAR et caméra collectées en conditions réelles, pour ensuite générer des véhicules et piétons en trois dimensions avec une géométrie et une apparence complètes. L'approche dite "reconstruire-puis-générer" fonctionne en deux temps : elle commence par exploiter un rendu neural conscient des occlusions, entraîné sur plusieurs scènes, pour construire un espace latent de haute qualité représentant les objets observés ; un modèle de diffusion opère ensuite sur cet espace pour produire des assets variés et réalistes. Les auteurs affirment que GenAssets surpasse les méthodes existantes de reconstruction et de génération sur des benchmarks standardisés. La simulation multi-capteurs est au cœur du développement sûr des systèmes de conduite autonome : sans assets 3D diversifiés et réalistes, il est impossible de tester les véhicules dans des situations rares ou dangereuses à reproduire dans la réalité. Le problème central que GenAssets résout est celui des données en conditions sauvages ("in-the-wild"), où les acteurs de la scène, autres voitures, cyclistes, piétons, sont souvent capturés sous des angles limités et partiellement masqués par d'autres objets. Les méthodes classiques de reconstruction par rendu neural échouent à produire des assets utilisables depuis des points de vue différents de l'observation d'origine, ce qui restreint fortement leur utilité en simulation. GenAssets débloque une création de contenu scalable et diverse, directement exploitable pour entraîner et valider des systèmes d'autonomie. La génération d'environnements synthétiques de haute fidélité est un enjeu stratégique pour des acteurs comme Waymo, Tesla, Cruise ou Mobileye, qui dépendent de milliards de kilomètres simulés pour compenser le coût prohibitif des tests réels. Les approches par diffusion ont connu une montée en puissance spectaculaire depuis 2022, mais leur application aux scènes de conduite réelles restait freinée par la rareté et la partialité des observations terrain. GenAssets ouvre une voie vers des pipelines entièrement automatisés de création d'assets, alimentés directement par les données collectées par les flottes de véhicules, ce qui pourrait significativement accélérer les cycles de développement et d'homologation des systèmes autonomes.

UELes constructeurs et équipementiers européens du secteur automobile pourraient bénéficier indirectement de cette avancée pour améliorer leurs pipelines de simulation en conduite autonome.

Recherche — page 7

GenAssets : génération d'assets 3D en espace latent

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels

Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels

Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique

Algorithme de beam search efficace pour la perception active en robotique mobile

EgoDyn-Bench : évaluation de la compréhension du mouvement ego-centré dans les modèles de vision pour la conduite autonome

SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques

Perception sémantique orientée objectif et sécurisée pour la robotique : communication et contrôle

Apprentissage par renforcement visuel centré sur l'agent face aux perturbations dynamiques

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

PhysCodeBench : évaluation de la simulation symbolique 3D physique par affinement multi-agents auto-correctif

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Génération de champs vectoriels guidée par un modèle de diffusion basé sur les scores

Concevoir des robots pour renforcer le lien parent-enfant : opportunités de la communication par robot interposé

Système automatique de prévention des collisions au sol par apprentissage par renforcement

INHerit-SG : graphes de scènes sémantiques hiérarchiques incrémentaux avec récupération de style RAG

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

ARETE : estimation de topologie par encodage rastérisé basé sur l'attention, sur données HSV de flottes de véhicules participatives

Prédiction collaborative de trajectoires par fusion tardive

Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle

Apprentissage par imitation : des métriques de régularité pour évaluer la qualité des données

L'altérité comme qualité dans la conception du toucher expressif des robots

EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage

Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes

Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

Mécanismes locaux de généralisation compositionnelle dans la diffusion conditionnelle

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines

L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger

Meta AI lance Sapiens2 : un modèle de vision haute résolution centré sur l'humain

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Des manchots pour dompter l’IA ? Cette méthode casse le mystère derrière l’effet « boîte noire »

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage

Yong Wang transforme l'information en connaissances

Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Système de navigation vision-langage incarné et déployable avec cognition hiérarchique et exploration contextuelle

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

Des modèles biologiques multimodaux appliqués aux traitements et aux soins aux patients

Une startup d'un milliard de dollars avec une vision différente de l'IA

CuspAI, ou la promesse d’une science accélérée par l’intelligence artificielle

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions