Recherche — page 5

671 articles · page 5 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

LLMs Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv en mai 2026 ECHO (Experience Consolidation and Hierarchical Organization), un framework mémoire pour modèles Vision-Language-Action (VLA) ciblant les tâches de manipulation longue durée. L'approche centrale repose sur un autoencodeur hyperbolique qui projette les états internes du VLA dans un espace hiérarchique continu, organisant les expériences passées en arbre sémantique plutôt qu'en liste linéaire d'embeddings. Un mécanisme de consolidation en arrière-plan raffine cet arbre par interpolation géométrique et fragmentation structurelle, permettant la synthèse de mémoires virtuelles. Intégré au modèle de fondation π0 (Physical Intelligence) et évalué sur le benchmark de simulation LIBERO, ECHO affiche un gain absolu de 12,8 points sur LIBERO-Long ainsi qu'une meilleure généralisation compositionnelle sur des suites de tâches non vues à l'entraînement. Des expériences en environnement réel sont mentionnées comme "préliminaires", sans métriques quantitatives publiées. Ce résultat pointe un verrou sous-estimé dans la course aux VLA : la mémoire. Les architectures actuelles (OpenVLA, Octo, π0 en baseline) traitent l'expérience passée comme un buffer plat, sans structure sémantique. Les tâches industrielles réelles, qu'il s'agisse d'assemblage multi-étapes ou de gestion d'exceptions en ligne de production, exigent précisément une récupération contextuelle efficace sur des horizons longs et la capacité à composer des séquences inédites. Le gain de 12,8% reste une métrique en simulation ; l'écart simulation-réalité n'est pas encore évalué rigoureusement, et la sélection des démos vidéo dans ce type de preprint mérite toujours une lecture prudente. Néanmoins, le cadre conceptuel ouvre une direction distincte du simple retrieval k-NN à plat ou de l'augmentation brute de contexte. ECHO s'inscrit dans l'effervescence autour des VLA généralistes depuis fin 2023, portée par π0 (Physical Intelligence, novembre 2024), OpenVLA (Berkeley/Stanford, 2024) et GR00T N1/N2 (NVIDIA, 2025). Physical Intelligence, la startup spécialisée dans les politiques robotiques génératives, fait de π0 sa plateforme de fondation ; ECHO s'y greffe comme module mémoire externe. Aucun code public ni timeline de déploiement industriel n'est annoncé dans le preprint, et aucun acteur français ou européen n'est impliqué. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks physiques (RoboSuite, RT-2-X) et la publication de résultats terrain complets.

Recherche — page 5

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)

ACSAC : acteur-critique à taille de segment adaptative avec réseau-Q à Transformer causal

Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

Modèles du monde : 10 points clés sur l'IA en ce moment

MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Auto-cohérence guidée par la géométrie pour l'IA physique

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact

Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA

HarmoWAM : la manipulation robotique généraliste

MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

SocialReasoning-Bench : évaluer si les agents IA agissent dans l'intérêt des utilisateurs

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables

RVPO : un alignement sensible au risque par régularisation de la variance

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

☕️ Google DeepMind s’attaque à EVE Online

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Modélisation neuronale d'ordre réduit avec simulation différentiable pour la perception tactile haute résolution

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

Flots normalisants avec débruitage itératif

De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux

Une méta-analyse sur les effets positifs de ChatGPT dans l’éducation rétractée 1 an après