Recherche — page 6

671 articles · page 6 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

LLMs Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

Début mai 2026, une équipe de chercheurs a publié (arXiv:2605.02757) un framework d'augmentation de données pour les modèles vision-language-action (VLA), visant le fossé visuel persistant entre simulation et données réelles. Le pipeline, nommé "Seeing Realism from Simulation", convertit des vidéos simulées en séquences d'apparence réaliste via trois étapes: segmentation sémantique vidéo pour extraire des conditions structurées, réécriture de légendes pour diversifier les environnements, puis application d'un modèle de transfert vidéo conditionnel. Pour rendre l'approche scalable, les auteurs introduisent un mécanisme de réutilisation de features de diffusion (recycler les tokens vidéo entre timesteps adjacents) et un coreset sampling qui sélectionne un sous-ensemble compact sous contrainte computationnelle. Sur les benchmarks Robotwin 2.0 et LIBERO-Plus, le framework améliore RDT-1B de 8% et le modèle pi-0 de Physical Intelligence de 5,1%. Le code est disponible en open source sur GitHub. Ces gains pointent un goulot d'étranglement réel de l'industrie: collecter des vidéos de manipulation réelles à grande échelle est coûteux et lent, alors que la simulation offre une scalabilité quasi-illimitée mais dégrade systématiquement les performances en déploiement. Si l'on peut transformer des données simulées en données visuellement réalistes en préservant les labels d'action, on dispose d'un levier de scaling à faible coût. Le fait que pi-0, déjà entraîné sur des millions de trajectoires réelles, gagne encore 5,1% indique une complémentarité avec les pipelines de collecte existants plutôt qu'une substitution. Cela dit, les auteurs ne publient aucun chiffre concret sur la réduction du temps de génération, ce qui laisse ouverte la question de viabilité à l'échelle industrielle. Ce travail s'inscrit dans la course aux modèles fondation pour la robotique, où Physical Intelligence (pi-0, pi-0.5) et les équipes derrière RDT-1B font figure de références. LIBERO et Robotwin 2.0 sont devenus les benchmarks standard pour comparer ces architectures VLA en conditions contrôlées. Contrairement aux approches de domain randomization ou au style transfer image par image, l'utilisation d'un modèle vidéo diffusion-based préserve la cohérence temporelle, critique pour les tâches de manipulation multi-étapes. Les prochaines étapes naturelles incluent l'extension à des environnements moins structurés et des horizons de tâche plus longs, là où le fossé sim-to-real reste le plus prononcé et où la diversité des légendes réécrites sera la plus déterminante.

Recherche — page 6

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

Routage KV stochastique : partage adaptatif du cache par couches

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel

Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire

Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'« AI co-clinician » de Google DeepMind devance GPT-5.4 aux tests en aveugle, mais reste derrière les médecins expérimentés

Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

Reinforced Agent : retour d'information à l'inférence pour les agents à appel d'outils

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Un nouvel outil d'interprétabilité mécaniste pour déboguer les LLM

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

Meta FAIR publie NeuralSet : un package Python pour la neuro-IA compatible fMRI, M/EEG, signaux neuronaux et embeddings HuggingFace

BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome

DiscreteRTC : les politiques de diffusion discrète comme exécuteurs asynchrones naturels

KinDER : un benchmark de raisonnement physique pour l'apprentissage et la planification robotique

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes

ReSim : une simulation fiable du monde réel pour la conduite autonome

GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot

Logique des chemins flous

Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène

Estimation d'état monoculaire métrique par alignement inertiel et priors cinétodynamiques

DSO : optimisation par pilotage direct pour la réduction des biais

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

BioNeMo de NVIDIA : mise à l'échelle de la modélisation biomoléculaire par parallélisme de contexte

Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal

La planification par gradient dans les modèles du monde sur des horizons prolongés

Alibaba DAMO Academy présente un modèle d'IA pour le dépistage non invasif du cancer colorectal

Modèles de langage comme planificateurs de haut niveau en boucle fermée pour la robotique : aperçu et benchmarks

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs

Suivi de pose 6-DoF d'objets dynamiques par points clés et caméra événementielle

Identification d'objets hors distribution pour la segmentation d'anomalies LiDAR 3D

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique