Aller au contenu principal

Recherche — page 5

671 articles · page 5 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)
201arXiv cs.RO RechercheOpinion

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv en mai 2026 ECHO (Experience Consolidation and Hierarchical Organization), un framework mémoire pour modèles Vision-Language-Action (VLA) ciblant les tâches de manipulation longue durée. L'approche centrale repose sur un autoencodeur hyperbolique qui projette les états internes du VLA dans un espace hiérarchique continu, organisant les expériences passées en arbre sémantique plutôt qu'en liste linéaire d'embeddings. Un mécanisme de consolidation en arrière-plan raffine cet arbre par interpolation géométrique et fragmentation structurelle, permettant la synthèse de mémoires virtuelles. Intégré au modèle de fondation π0 (Physical Intelligence) et évalué sur le benchmark de simulation LIBERO, ECHO affiche un gain absolu de 12,8 points sur LIBERO-Long ainsi qu'une meilleure généralisation compositionnelle sur des suites de tâches non vues à l'entraînement. Des expériences en environnement réel sont mentionnées comme "préliminaires", sans métriques quantitatives publiées. Ce résultat pointe un verrou sous-estimé dans la course aux VLA : la mémoire. Les architectures actuelles (OpenVLA, Octo, π0 en baseline) traitent l'expérience passée comme un buffer plat, sans structure sémantique. Les tâches industrielles réelles, qu'il s'agisse d'assemblage multi-étapes ou de gestion d'exceptions en ligne de production, exigent précisément une récupération contextuelle efficace sur des horizons longs et la capacité à composer des séquences inédites. Le gain de 12,8% reste une métrique en simulation ; l'écart simulation-réalité n'est pas encore évalué rigoureusement, et la sélection des démos vidéo dans ce type de preprint mérite toujours une lecture prudente. Néanmoins, le cadre conceptuel ouvre une direction distincte du simple retrieval k-NN à plat ou de l'augmentation brute de contexte. ECHO s'inscrit dans l'effervescence autour des VLA généralistes depuis fin 2023, portée par π0 (Physical Intelligence, novembre 2024), OpenVLA (Berkeley/Stanford, 2024) et GR00T N1/N2 (NVIDIA, 2025). Physical Intelligence, la startup spécialisée dans les politiques robotiques génératives, fait de π0 sa plateforme de fondation ; ECHO s'y greffe comme module mémoire externe. Aucun code public ni timeline de déploiement industriel n'est annoncé dans le preprint, et aucun acteur français ou européen n'est impliqué. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks physiques (RoboSuite, RT-2-X) et la publication de résultats terrain complets.

1 source
ACSAC : acteur-critique à taille de segment adaptative avec réseau-Q à Transformer causal
202arXiv cs.RO 

ACSAC : acteur-critique à taille de segment adaptative avec réseau-Q à Transformer causal

Des chercheurs proposent ACSAC (Adaptive Chunk Size Actor-Critic), une méthode d'apprentissage par renforcement publiée sur arXiv en mai 2025 (arXiv:2605.11009). L'architecture repose sur un réseau critique de type Transformer causal, qui évalue les retours attendus pour des séquences d'actions -- appelées "chunks" -- de longueurs variables. À chaque frontière de chunk, la politique sélectionne dynamiquement la taille qui maximise le retour estimé, sans nécessiter de réglage manuel par tâche. Évaluée sur OGBench, la suite de référence pour le RL offline longue horizon, ACSAC atteint des performances état de l'art sur des tâches de manipulation à horizon long et récompenses rares, aussi bien en RL offline pur qu'en RL offline-to-online. L'action chunking -- exécuter une séquence d'actions prédite en un seul bloc -- est devenu un mécanisme central dans les politiques robotiques modernes : il réduit l'horizon effectif, accélère les mises à jour de valeur et favorise une exploration cohérente dans le temps. Mais toutes les méthodes existantes, dont ACT, Diffusion Policy ou les récents VLA comme pi-0 de Physical Intelligence, utilisent une taille de chunk fixe, imposant un compromis difficile : un chunk long améliore la cohérence temporelle mais dégrade la réactivité aux nouvelles observations, tandis qu'un chunk court produit des mouvements erratiques. ACSAC supprime ce compromis en rendant la taille dépendante de l'état courant. Les auteurs démontrent formellement que l'opérateur de Bellman associé est une contraction ayant un unique point fixe, garantissant la convergence de l'algorithme -- une propriété que les méthodes heuristiques à chunk fixe ne peuvent pas revendiquer. Le concept d'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023), puis généralisé par les politiques de diffusion et intégré dans les VLA de nouvelle génération comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGBench, développé par Park et al. en 2024, s'est imposé comme le benchmark standard pour évaluer le RL offline sur des tâches de manipulation complexes. ACSAC se positionne directement contre ces approches à chunk fixe, avec une promesse de généralisation sans tuning par tâche -- une propriété critique pour le déploiement multi-tâches en industrie. Les résultats actuels restent limités à des environnements simulés ; les prochaines étapes naturelles incluent la validation sur matériel réel et l'intégration dans des architectures fondation à grande échelle.

RecherchePaper
1 source
Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées
203arXiv cs.RO 

Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées

Des chercheurs ont publié sur arXiv (référence 2506.01568, version 3) une méthode nommée "Trajectory First", un curriculum d'entraînement en deux étapes conçu pour produire des politiques comportementales diversifiées en apprentissage par renforcement (RL). La contribution centrale est l'introduction d'un a priori de trajectoires splines comme biais inductif durant la première phase : ce prior géométrique guide l'exploration de l'espace des comportements, permettant de générer un ensemble de stratégies à haute récompense mais distinctes. La seconde phase distille ces comportements en politiques réactives pas-à-pas, utilisables en temps réel. Les expériences valident l'approche sur des tâches de manipulation robotique en simulation, domaine où les méthodes de diversité contrainte existantes montrent des lacunes d'exploration marquées. La diversité comportementale est un enjeu opérationnel concret pour les intégrateurs et les équipes de robotique industrielle : un robot capable de saisir un objet selon plusieurs stratégies est nettement plus robuste aux variations de position, d'éclairage ou de géométrie qu'un système limité à une unique politique apprise. Les cadres actuels d'optimisation de diversité contrainte, malgré leurs progrès théoriques, convergent fréquemment vers des optima locaux en manipulation dextre, bridant la robustesse effective des systèmes en production. "Trajectory First" propose une voie pour contourner cette limite sans sacrifier la performance sur la tâche principale, ce qui est précisément le compromis clef que la communauté cherche à résoudre depuis plusieurs années. L'approche ne nécessite pas d'entraînement spécifique à chaque configuration, ce qui renforce sa portée généraliste. L'optimisation de diversité en RL s'est structurée autour de paradigmes comme Quality-Diversity (QD-RL), MAP-Elites, DIAYN ou DADS, qui peinent tous sur des espaces d'action continus à horizon long. "Trajectory First" s'inscrit dans un courant combinant curriculum learning et représentations géométriques du mouvement pour améliorer l'exploration initiale avant de contraindre la politique finale. Cette publication est une contribution de recherche fondamentale, validée en simulation uniquement, sans déploiement industriel ni partenaires commerciaux annoncés. Les extensions naturelles incluent le transfert sim-to-real et la manipulation bimanuelle, deux axes très actifs dans les laboratoires académiques (Inria, ETH Zurich, CMU) comme chez les acteurs industriels tels que Physical Intelligence (Pi-0), Covariant ou le Boston Dynamics AI Institute.

RecherchePaper
1 source
Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots
204arXiv cs.RO 

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

Des chercheurs ont publié sur arXiv (2603.17510v2) une architecture permettant à un robot mobile de naviguer en environnement partagé en tenant compte des préférences exprimées en langage naturel par ses utilisateurs. Le système repose sur trois couches distinctes : un modèle vision-langage (VLM) qui analyse en continu les images de la caméra embarquée pour extraire un contexte environnemental structuré, un grand modèle de langage (LLM) qui traduit les retours verbaux des utilisateurs en règles comportementales interprétables, stockées dans une mémoire persistante et modifiable, puis un module de traduction des préférences qui convertit ces règles et ce contexte en vecteurs numériques injectés à la volée dans une politique de navigation par apprentissage par renforcement multi-objectif (MORL) préentraînée. L'évaluation couvre des déploiements réels dans plusieurs environnements intérieurs, une étude utilisateur et des mesures quantitatives par composant, sans que l'abstract précise les effectifs ni les métriques chiffrées de performance. Ce travail adresse un verrou concret pour les déploiements en milieu professionnel : aujourd'hui, un robot de livraison intérieure ou un AMR logistique optimise vitesse et sécurité selon des paramètres fixes, incapable d'adapter son comportement si un opérateur lui dit "ralentis dans la zone de picking" ou "évite le couloir principal le matin". L'architecture proposée résout ce problème sans réentraînement : la mémoire de règles est mise à jour à chaud via langage naturel, ce qui réduit dramatiquement le coût d'intégration pour un déploiement B2B. La séparation claire entre raisonnement sémantique de haut niveau (VLM/LLM) et contrôle temps-réel (MORL) est également un argument industriel sérieux, car elle permet de changer le backbone LLM sans toucher à la politique de bas niveau. Ce type d'approche s'inscrit dans une tendance académique forte depuis 2023 : l'utilisation de fondational models comme couche d'interprétation au-dessus de politiques de contrôle classiques, popularisée notamment par les travaux sur les VLA (Vision-Language-Action models) chez Google DeepMind ou Stanford. La différence ici est la persistance explicite des règles en mémoire et l'utilisation de MORL plutôt que d'une politique end-to-end, ce qui offre davantage de contrôle et de transparence. Aucun partenaire industriel ni timeline de commercialisation ne sont mentionnés, ce travail restant pour l'instant une contribution de recherche. La prochaine étape naturelle serait de valider le système sur des robots commerciaux comme le Spot de Boston Dynamics ou des AMR de Locus Robotics, et d'étendre les expériences aux environnements extérieurs ou aux contextes multi-utilisateurs.

RechercheOpinion
1 source
Modèles du monde : 10 points clés sur l'IA en ce moment
205MIT Technology Review 

Modèles du monde : 10 points clés sur l'IA en ce moment

Les "world models" figurent parmi les dix tendances les plus importantes de l'intelligence artificielle selon le MIT Technology Review, qui leur consacre une place dans sa sélection éditoriale annuelle "10 Things That Matter in AI Right Now". La publication organise en parallèle une table ronde réservée aux abonnés intitulée "Can AI Learn to Understand the World?", animée par le rédacteur en chef Mat Honan, le senior editor Will Douglas Heaven et la journaliste spécialisée Grace Huckins. Les world models représentent une approche fondamentalement différente de l'IA actuelle : plutôt que de prédire des tokens de texte, ces systèmes cherchent à construire une représentation interne du monde physique, capable d'anticiper les conséquences d'actions dans des environnements réels. L'enjeu est considérable pour la robotique, les véhicules autonomes et tout système d'IA devant agir dans le monde réel plutôt que simplement répondre à des requêtes textuelles. Le sujet est étroitement lié aux travaux de Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une vision où les world models constitueraient la prochaine étape majeure au-delà des grands modèles de langage. Des applications concrètes commencent à émerger, comme l'utilisation des données de Pokémon Go pour doter des robots livreurs d'une cartographie centimètre par centimètre de l'environnement urbain. L'intérêt croissant de la presse spécialisée pour ce concept signale que le débat sur les limites des LLMs actuels s'intensifie dans les cercles de recherche.

RecherchePaper
1 source
MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale
206Microsoft Research 

MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale

Microsoft Research a annoncé plusieurs avancées majeures autour de MatterSim, son modèle d'intelligence artificielle dédié à la simulation des matériaux. L'équipe a d'abord validé expérimentalement une prédiction du modèle : le phosphure de tantale tétragonal (TaP) a été synthétisé en laboratoire et sa conductivité thermique mesurée à 152 W/m/K, une valeur proche de celle du silicium. Ce résultat confirme la fiabilité de MatterSim-v1, qui avait identifié ce matériau après avoir passé en revue plus de 240 000 candidats. Ces travaux ont été menés en collaboration avec l'Université du Texas à Dallas, l'Université de l'Illinois à Urbana-Champaign et l'Université de Californie à Davis. En parallèle, l'équipe a accéléré l'inférence du modèle de trois à cinq fois et l'a intégré au logiciel de simulation LAMMPS, autorisant des calculs à grande échelle sur plusieurs GPU simultanément. Microsoft lance également MatterSim-MT, un modèle de fondation multi-tâches capable de simuler des phénomènes impliquant plusieurs propriétés complexes que les approches classiques de surfaces d'énergie potentielle ne peuvent pas capturer seules. La conception de nouveaux matériaux sous-tend des pans entiers de l'innovation technologique, de la nanoélectronique au stockage d'énergie, mais les cycles de développement restent longs et onéreux. Les potentiels interatomiques par apprentissage automatique comme MatterSim visent à transformer ce paradigme : ils opèrent des ordres de grandeur plus vite que les simulations ab initio traditionnelles, ramenant des calculs autrefois prohibitifs à quelques heures de traitement. La validation du TaP illustre concrètement ce gain : au lieu de mois d'exploration empirique en laboratoire, MatterSim a permis de cibler un candidat à haute conductivité thermique parmi un quart de million de matériaux avant même toute synthèse. Les matériaux conducteurs de chaleur jouent un rôle critique dans la gestion thermique des processeurs, de l'électronique de puissance et des technologies aérospatiales. Disposer d'outils prédictifs fiables à cette échelle pourrait donc accélérer substantiellement le développement de composants de nouvelle génération. MatterSim-v1 avait été lancé par Microsoft Research et s'était rapidement imposé dans la communauté des sciences des matériaux grâce à sa capacité à simuler les matériaux dans des conditions réalistes, y compris à température et pression variables. Le nouveau modèle multi-tâches MatterSim-MT s'inscrit dans une tendance de fond : l'émergence de modèles de fondation couvrant un spectre de propriétés toujours plus large, au-delà de la simple stabilité structurelle. Microsoft n'est pas seul dans cette course : Google DeepMind avec GNoME et Meta avec ses outils FAIR-Chem développent des approches comparables. L'IA pour la découverte de matériaux attire des investissements croissants, portée par les besoins de l'industrie des semi-conducteurs, de la transition énergétique et de l'électronique avancée. Les prochaines étapes pour MatterSim passeront vraisemblablement par l'extension à de nouvelles propriétés simulables et une intégration plus étroite dans les workflows expérimentaux des laboratoires partenaires.

RecherchePaper
1 source
Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon
207MarkTechPost 

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

Des chercheurs de Tilde Research ont publié Aurora, un nouvel optimiseur pour l'entraînement de réseaux de neurones qui corrige un défaut structurel présent dans Muon, l'un des optimiseurs les plus adoptés par la communauté depuis 2024. Le problème découvert est frappant : dans les matrices de poids "tall", comme celles des couches MLP basées sur l'architecture SwiGLU, Muon tue silencieusement une fraction importante des neurones au fil de l'entraînement. Dès la 500e étape d'entraînement, plus d'un neurone sur quatre est effectivement mort et ne se réveille plus. Aurora propose une correction mathématique rigoureuse, accompagnée d'un benchmark validé sur un modèle de 1,1 milliard de paramètres, d'un nouveau record sur le classement modded-nanoGPT speedrun, et d'un code publié en accès libre. Ce bug discret a des conséquences concrètes sur la qualité des modèles entraînés avec Muon. Le mécanisme central de Muon repose sur le calcul d'un "facteur polaire" à partir du gradient, ce qui produit une mise à jour quasi-orthogonale des poids. Mais pour les matrices tall, il est mathématiquement impossible de rester orthogonal tout en maintenant des mises à jour uniformes entre les neurones : l'optimiseur finit par sur-mettre à jour certains neurones et en ignorer d'autres. Les neurones sous-alimentés reçoivent de moins en moins de signal, entrent dans une spirale de mort, et cessent de contribuer au calcul. Cette inactivité se propage aux couches suivantes, privant tout le réseau d'une partie de sa capacité de représentation, sans qu'aucun signal d'erreur ne l'indique clairement. Muon avait attiré l'attention de la communauté ML en surpassant AdamW en vitesse de convergence sur le benchmark nanoGPT speedrun, une compétition mesurant la rapidité d'entraînement d'un modèle de type GPT. Depuis, plusieurs groupes de recherche travaillant à l'échelle frontier l'ont adopté. Une variante intermédiaire, NorMuon, avait tenté d'améliorer Muon en normalisant les lignes du gradient, mais visait la mauvaise cible : elle imposait une norme de 1 à chaque ligne, alors que la valeur mathématiquement correcte pour une matrice tall est √(n/m). Tilde Research a d'abord formalisé cette correction sous le nom U-NorMuon, qui élimine complètement la mort neuronale à 340 millions de paramètres, avant de développer Aurora comme solution complète préservant à la fois l'uniformité des mises à jour et la précision du facteur polaire. La publication en code ouvert ouvre la voie à une adoption rapide dans les pipelines d'entraînement existants.

UELes équipes de recherche et labs ML français et européens entraînant des modèles avec Muon peuvent adopter Aurora directement pour éliminer la mort neuronale silencieuse et améliorer la qualité de leurs modèles.

RecherchePaper
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
208arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

RechercheOpinion
1 source
Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur
209arXiv cs.RO 

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Le fine-tuning non contraint des modèles Vision-Language-Action (VLA) basés sur le flow matching provoque un phénomène bien documenté : l'écrasement massif des paramètres entraînés, qui dégrade les capacités générales acquises en pré-entraînement. Une équipe de recherche publie sur arXiv (2605.08879) une méthode baptisée ConSFT (Conservative Supervised Fine-Tuning), un nouvel objectif d'optimisation qui permet d'adapter un VLA à une distribution cible sans effacer ses compétences préalables. La méthode a été évaluée sur les benchmarks LIBERO et RoboTwin avec trois modèles de référence : pi-0, pi-0.5 et GR00T-N1.6-3B. Résultat : ConSFT dépasse le fine-tuning supervisé classique de plus de 20 points absolus en rétention de capacités, et rivalise avec l'Experience Replay, une méthode connue mais gourmande en données historiques, sans en nécessiter aucune. Des déploiements physiques sur robots confirment que la méthode évite le surapprentissage spatial lors de l'adaptation à des tâches séquentielles nouvelles. L'enjeu est central pour l'industrialisation des robots manipulateurs polyvalents. Les VLA de type flow matching, comme pi-0 de Physical Intelligence ou GR00T-N1.6-3B de NVIDIA, sont pré-entraînés sur de larges corpus de démonstrations et constituent la base d'agents robotiques généralistes. Mais leur adaptation à un contexte opérationnel précis (cellule de montage, poste de picking spécifique) détruit systématiquement une partie des compétences acquises, forçant les intégrateurs à choisir entre spécialisation et généralité. ConSFT rompt ce compromis : en modulant dynamiquement le signal d'apprentissage selon la confiance du modèle sur chaque échantillon, il bride les gradients excessifs des cas à faible confiance, limitant la perturbation des paramètres. L'inspiration provient du trust-region clipping du reinforcement learning (PPO), transposé ici en apprentissage supervisé. Les modèles VLA à flow matching représentent la génération actuelle des architectures de contrôle robot les plus performantes. Physical Intelligence a lancé pi-0 fin 2024, suivi de pi-0.5 en 2025 ; NVIDIA a publié GR00T N1 puis N1.6 dans le même intervalle. L'oubli catastrophique lors du fine-tuning est un obstacle pratique que plusieurs équipes tentent de contourner, notamment via l'Experience Replay ou des architectures à réseau de référence parallèle. ConSFT propose une voie plus légère : aucune donnée antérieure requise, aucun réseau auxiliaire, aucune modification architecturale. La méthode reste à valider sur des tâches industrielles longues et des robots avec dextérité fine, mais les résultats sur LIBERO et les expériences physiques publiées suggèrent un transfert sim-to-real fonctionnel.

RechercheOpinion
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
210arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

RechercheOpinion
1 source
Auto-cohérence guidée par la géométrie pour l'IA physique
211arXiv cs.RO 

Auto-cohérence guidée par la géométrie pour l'IA physique

KeyStone est une méthode de cohérence automatique à l'inférence pour les modèles d'IA physique basés sur la diffusion, présentée dans un preprint arXiv (arXiv:2605.08638) publié en mai 2026. Le principe opérationnel : au lieu de retenir une seule trajectoire d'action par round d'inférence, KeyStone génère K trajectoires candidates en parallèle depuis un contexte de modèle partagé, les regroupe par clustering dans l'espace d'action continu, puis retourne le médoïde du cluster le plus dense. Aucun modèle additionnel n'est requis. Les auteurs rapportent une amélioration du taux de succès allant jusqu'à 13,3 % par rapport à l'échantillonnage sur trajectoire unique, avec une latence additionnelle négligeable. La méthode a été validée sur plusieurs classes d'architectures : vision-language-action models (VLAs) et world-action models (WAMs). Le code est publié en open source sur GitHub. L'enjeu central est la fragilité intrinsèque des politiques diffusion-based : chaque inférence est stochastique, et retenir une mauvaise trajectoire compromet l'ensemble de l'épisode suivant, défaut qui se cumule sur des séquences longues. KeyStone exploite une propriété géométrique spécifique aux systèmes robotiques : la distance euclidienne entre chunks d'action reflète directement la similarité physique entre trajectoires, contrairement aux espaces token ou pixel où cette métrique est sémantiquement vide et nécessite un modèle de scoring appris. La sélection est donc principled et judge-free, sans coût d'entraînement. Pour un intégrateur ou un ingénieur robotique, l'argument est concret : gain de performance sans pipeline additionnel, sans latence notable. Ce dernier point repose sur le fait que l'inférence par diffusion est memory-bandwidth bound, laissant de la capacité de calcul disponible pour exécuter K chaînes en parallèle dans le même budget temporel. KeyStone s'inscrit dans l'écosystème des politiques de contrôle apprises pour la manipulation et la navigation physique, dont les représentants actifs sont pi0 de Physical Intelligence, OpenVLA (UC Berkeley), Octo et Diffusion Policy. Ces architectures génèrent des séquences d'action par diffusion ou flow matching, une approche en forte expansion mais exposée précisément à la variabilité stochastique que KeyStone cible. La méthode se positionne comme une amélioration orthogonale, applicable sans réentraînement à tout modèle de cette famille. Le preprint ne mentionne ni déploiement terrain, ni partenaire industriel, ni timeline commerciale : il s'agit d'une contribution de recherche académique, pas d'un produit. La mise en open source immédiate du code accélérera néanmoins l'évaluation par les équipes qui testent des pipelines VLA dans des environnements semi-structurés ou industriels.

RechercheOpinion
1 source
La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon
212arXiv cs.RO 

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.09537) une méthode appelée CAPS (Context-Aware Power Sampling), conçue pour corriger un défaut récurrent des modèles Vision-Language-Action (VLA) : la dérive d'instruction dans les tâches longues. Leur thèse centrale est que cette dérive n'est pas un problème d'apprentissage mais une erreur systématique d'échantillonnage : le mode glouton local, dominant dans la plupart des inférences VLA actuelles, tend à tomber dans ce que les auteurs nomment des "Negative Pivotal Windows", des optima locaux irréversibles à haute probabilité locale qui coupent définitivement les chemins vers le succès global. CAPS opère entièrement à l'inférence, sans aucune mise à jour des paramètres du modèle, en exploitant des distributions puissance (power distributions) pour accentuer les probabilités de trajectoire globale, couplées à un mécanisme de contrôle métacognitif basé sur le rapport signal-sur-bruit (SNR) qui déclenche une recherche MCMC adaptative uniquement lorsqu'un risque de dérive est détecté. Évalué sur les benchmarks RoboTwin, Simpler-WindowX et Libero-long, CAPS surpasse des références solides comme OpenVLA et TACO sans aucun réentraînement. L'apport clé pour les intégrateurs et chercheurs en robotique est que CAPS est directement applicable à tout modèle VLA déjà déployé, sans modification architecturale. Le mécanisme SNR implémente en pratique une logique système 1 / système 2 à la Kahneman : l'inférence reste rapide par défaut et bascule en mode recherche lente et délibérative uniquement quand les signaux de dérive sont détectés, ce qui limite le surcoût computationnel. Sur les benchmarks long-horizon, talon d'Achille reconnu des VLA actuels, les gains de robustesse sont substantiels, bien que les auteurs ne fournissent pas de résultats sur robot physique, laissant ouverte la question du sim-to-real pour cette méthode spécifique. Les VLA ont connu une accélération notable depuis 2024, avec des modèles phares comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA issu de Stanford, chacun cherchant à allonger l'horizon de tâche et améliorer la généralisation dans des environnements non structurés. La dérive d'instruction était documentée comme l'une des limites structurelles non résolues de ces architectures. Ce papier propose une approche orthogonale au scaling des données ou du modèle, ce qui le rend potentiellement complémentaire aux efforts en cours plutôt que concurrent. Les prochaines étapes naturelles seraient des validations sur robots physiques et une intégration dans des pipelines de contrôle industriel, des éléments que les auteurs n'annoncent pas encore explicitement dans cette version préliminaire.

RechercheOpinion
1 source
Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact
213arXiv cs.RO 

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact

Des chercheurs ont publié sur arXiv (2602.22088v2) "Force Policy", une architecture de contrôle pour la manipulation robotique en contact prolongé. L'approche repose sur une séparation architecturale nette entre deux régimes d'action : un module global guidé par la vision qui pilote les mouvements en espace libre, et un module local haute fréquence qui prend le relais dès qu'un contact est établi, en exploitant le retour d'effort pour exécuter un contrôle hybride force-position. Le coeur du système est ce que les auteurs appellent un "interaction frame" : un repère local instantané, récupéré automatiquement à partir de démonstrations humaines, qui découple la régulation de force de l'exécution du mouvement. Les expériences en conditions réelles couvrent plusieurs tâches à contact riche (assemblage, insertion, vissage) et démontrent des gains mesurables en stabilité de contact, précision de régulation de force et généralisation à des objets aux géométries et propriétés physiques variées. L'enjeu industriel est direct : la manipulation en contact riche reste le principal goulot d'étranglement des robots de production et d'assemblage. Les politiques d'apprentissage actuelles, qu'il s'agisse de Diffusion Policy, d'ACT ou des approches VLA, sont conçues pour l'espace libre et degradent significativement dès qu'un outil touche une pièce. En injectant le retour d'effort dans une boucle locale haute fréquence distincte de la boucle visuelle, Force Policy adresse structurellement ce découplage plutôt que de le noyer dans un réseau monolithique. La capacité à estimer le repère d'interaction à partir de démonstrations, sans hypothèse sur la structure de la tâche, réduit l'ingénierie manuelle nécessaire au déploiement. Ce travail s'inscrit dans une ligne de recherche active sur le contrôle hybride appris, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur le compliance learning chez CMU et Stanford. Il reste à ce stade une démonstration académique, sans déploiement industriel annoncé ni partenariat constructeur mentionné. L'étape suivante naturelle serait une validation sur des cellules d'assemblage réelles, avec des volumes de cycle et des tolérances conformes aux standards industriels. Le code et les démonstrations vidéo sont disponibles sur force-policy.github.io.

RecherchePaper
1 source
Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs
214arXiv cs.RO 

Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs

Une équipe de chercheurs publie sur arXiv (référence 2605.10094, mai 2026) un cadre d'adaptation appelé "Retrieve-then-Steer" pour améliorer la fiabilité en boucle fermée des modèles VLA (Vision-Language-Action) génératifs. Pendant le déploiement, le robot enregistre dans une mémoire persistante les segments observation-action ayant conduit à des succès vérifiés par l'environnement. À chaque inférence, le système récupère les segments les plus pertinents à l'état courant, filtre les candidats incohérents par analyse de cohérence au niveau trajectoire, puis les agrège en un "prior d'action élite". Ce prior est injecté dans un état intermédiaire du générateur d'actions par flow-matching, avec une force modulée selon la confiance de la récupération, selon un mécanisme nommé "confidence-adaptive prior guidance". L'ensemble opère sur un VLA gelé (paramètres fixes), sans aucune mise à jour de poids. Des expériences en simulation et en environnement réel montrent des gains de taux de succès et de stabilité, en particulier sur des tâches longues et multi-étapes. L'approche répond à un angle mort des évaluations actuelles : les VLA sont testés épisode par épisode en mode zero-shot, ignorant les réussites accumulées dans le même environnement. Or un robot industriel répète souvent les mêmes gestes dans le même atelier. En capitalisant sur ces expériences vérifiées sans fine-tuning, la méthode lève un obstacle majeur à l'intégration B2B des bras manipulateurs pilotés par VLA. L'adaptation non paramétrique adresse aussi indirectement le problème du sim-to-real gap : le signal provient directement de l'environnement réel effectif, pas d'une simulation. Les VLA génératifs font l'objet d'une course intense depuis 2024, avec pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA comme références dominantes, mais leur fiabilité en déploiement prolongé reste un sujet peu traité dans la littérature. Ce travail s'inscrit dans un courant émergent de test-time adaptation (TTA) qui cherche à contourner le coût du fine-tuning post-déploiement. La méthode étant compatible avec tout VLA basé sur le flow-matching, son périmètre d'application potentiel est large. Aucun partenaire industriel ni calendrier commercial n'est mentionné, ce qui positionne cette contribution comme de la recherche fondamentale avec un potentiel d'intégration à moyen terme dans les pipelines de manipulation généraliste.

RechercheActu
1 source
IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite
215arXiv cs.RO 

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

Des chercheurs présentent SAGE (Sandbox-Abstracted Grounded Experience), un framework pour la navigation autonome de robots en environnement ouvert, publié en mai 2026 sur arXiv (2605.10118). Le constat de départ : les Vision-Language Models (VLMs) disposent de fortes capacités de raisonnement général, mais échouent en navigation embodied faute de données alignées vision-contrôle en monde réel. Les simulateurs photoréalistes (Habitat, Isaac Sim) offrent une alternative moins coûteuse, mais les politiques apprises peinent à se transférer vers des environnements physiques. SAGE résout ce problème en entraînant les agents dans des abstractions sémantiques contraintes par la physique plutôt que dans des décors photoréalistes, imitant le mécanisme de "simulation mentale" humain où l'on planifie dans le simplifié avant d'exécuter dans le réel. Le système fonctionne en trois phases : Genesis (génération d'environnements sémantiques variés), Evolution (apprentissage par renforcement avec un mécanisme d'écrêtage adaptatif asymétrique) et Navigation (transfert vers le contrôle robot réel). Sur le benchmark A-EQA (Embodied Question Answering), SAGE atteint 53,21 % de taux de succès LLM-Match, soit +9,7 points par rapport à la baseline. La validation inclut un déploiement préliminaire sur robot physique en environnement intérieur. Ce résultat valide une hypothèse contre-intuitive pour le secteur : réduire le réalisme visuel de la simulation peut améliorer le transfert sim-to-real plutôt que le compromettre. La majorité des frameworks actuels parient sur la fidélité photoréaliste pour combler le reality gap ; SAGE inverse ce paradigme. Pour les intégrateurs et décideurs industriels, la démarche ouvre une voie moins gourmande en compute et en données terrain pour déployer des agents de navigation autonome dans des espaces non structurés (entrepôts, hôpitaux, bureaux). Le mécanisme d'écrêtage adaptatif asymétrique de la phase Evolution représente également une contribution technique ciblée : il stabilise l'apprentissage par renforcement lorsque les distributions d'expériences sont déséquilibrées, un point de friction récurrent dans les pipelines de navigation embodied. La navigation embodied assistée par VLMs est en forte expansion depuis 2023, portée par des travaux comme NavGPT, EmbodiedGPT et les architectures VLA (Vision-Language-Action). Le reality gap y reste un obstacle structurel : les politiques entraînées sur des datasets de simulation (Gibson, Matterport3D) généralisent rarement aux environnements réels, contraignant les équipes à des campagnes de collecte terrain coûteuses. SAGE propose une troisième voie entre simulation photoréaliste et données terrain. La validation physique reste toutefois préliminaire et limitée à un contexte indoor, ce qui positionne encore ce travail dans la catégorie recherche académique expérimentale plutôt que produit déployable. Aucune comparaison directe avec des frameworks établis comme Habitat 3.0 ou Isaac Lab n'est fournie dans cette version initiale, ce qui compliquera le positionnement pour les équipes R&D souhaitant adopter SAGE sans reproduire les expériences de zéro.

RechercheActu
1 source
Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA
216arXiv cs.RO 

Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA

Des chercheurs ont publié sur arXiv (référence 2605.10821, mai 2026) UniSteer, un framework d'adaptation des modèles VLA (vision-language-action) basés sur la diffusion pour la manipulation robotique en conditions réelles. L'approche combine deux mécanismes jusqu'ici incompatibles : l'apprentissage par renforcement dans l'espace du bruit (noise-space RL), qui optimise un acteur léger sans toucher au modèle VLA préentraîné gelé, et les interventions correctives humaines fournies en espace d'action. La clé technique est une inversion approximative action-vers-bruit (action-to-noise inversion) appliquée au décodeur flow-matching gelé, ce qui permet de convertir chaque correction humaine en cible de supervision directement exploitable par le même acteur bruit que le RL optimise en parallèle. Sur quatre tâches de manipulation réelles et distinctes, UniSteer fait passer le taux de succès de 20 % à 90 % en 66 minutes d'adaptation en moyenne, surpassant les baselines noise-space RL autonomes et les approches human-in-the-loop en espace d'action. Ce résultat est significatif parce que l'adaptation on-robot reste le goulot d'étranglement majeur entre les VLA préentraînés et le déploiement industriel. Les modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montrent de fortes capacités en simulation et sur des distributions de données larges, mais se dégradent rapidement face aux distributions réelles spécifiques à un site ou à une tâche. UniSteer démontre qu'il est possible d'atteindre une adaptation efficace en moins d'une heure de temps robot, un budget crédible pour un intégrateur industriel. La précision à nuancer : les 66 minutes sont une moyenne sur quatre tâches contrôlées en laboratoire, et les conditions expérimentales exactes (complexité des tâches, variabilité de l'environnement, fréquence des interventions humaines) ne sont pas encore pleinement documentées dans le preprint. Ce travail s'inscrit dans une dynamique de recherche intense sur le fine-tuning des VLA post-déploiement, aux côtés d'approches comme RLIF (reinforcement learning from interventions) et DAgger. Le noise-space RL avait été proposé comme alternative moins coûteuse au fine-tuning complet, mais souffrait d'une exploration autonome inefficace. UniSteer comble ce déficit en injectant du signal humain sans nécessiter de réentraîner l'architecture de dénoising. Les suites logiques incluent des validations sur des VLA commerciaux (pi-0, GR00T N2, Helix d'Agility Robotics) et des tâches à plus longue chaîne d'actions, où la composante humaine pourrait devenir prohibitivement coûteuse. Aucun partenaire industriel ni calendrier de transfert n'est annoncé : il s'agit d'un preprint académique, pas d'un produit.

RechercheOpinion
1 source
HarmoWAM : la manipulation robotique généraliste
217arXiv cs.RO 

HarmoWAM : la manipulation robotique généraliste

Une équipe de chercheurs a soumis HarmoWAM (arXiv:2605.10942) en mai 2026, un nouveau modèle d'action mondial (WAM) end-to-end pour le contrôle de robots manipulateurs. L'architecture unifie deux paradigmes antagonistes dans la littérature : l'"Imagine-then-Execute" (prédiction vidéo puis dynamique inverse), généralisable mais imprécis, et le "Joint Modeling" (actions et représentations visuelles comodélisées), précis mais limité à sa distribution d'entraînement. HarmoWAM combine un world model fournissant des priors physiques spatio-temporels, deux experts d'action complémentaires (un expert prédictif exploitant les dynamiques latentes, un expert réactif inférant les actions depuis l'évolution visuelle prédite), et un Process-Adaptive Gating Mechanism qui sélectionne automatiquement lequel activer selon la phase de la tâche. Sur six tâches réelles évaluées dans trois environnements jamais vus à l'entraînement, le système surpasse les meilleurs VLAs de 33 % et les WAMs concurrents de 29 % en généralisation zéro-shot. Le résultat stratégique n'est pas la performance brute, mais la capacité à généraliser sans réentraînement sur des configurations inédites -- le blocage central identifié par les intégrateurs industriels. Un robot précis en lab s'effondre dès qu'un fond, une position ou un objet change. En découplant transit généraliste et interaction précise, avec un mécanisme automatique pour basculer entre les deux selon la phase, HarmoWAM attaque directement le sim-to-real gap et la fragilité distributionnelle des VLAs actuels. Si ces gains se confirment sur des configurations plus variées, cela contredit l'hypothèse souvent défendue que précision et généralisation restent fondamentalement incompatibles à court terme. Les WAMs émergent comme alternative aux VLAs classiques, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), en intégrant explicitement un modèle prédictif du monde physique dans la boucle de contrôle. HarmoWAM cherche à réconcilier deux branches qui s'étaient développées séparément au sein de cette famille. L'article reste un preprint arXiv non encore évalué par les pairs, sans partenaire industriel cité ni calendrier de déploiement annoncé -- il s'agit donc d'une annonce de recherche, pas d'un produit shipé. Aucune entreprise française ou européenne n'est mentionnée dans les travaux. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme LIBERO ou RLBench, ainsi que des tâches longue durée multi-étapes, domaines où les WAMs montrent encore des limites reconnues.

RechercheOpinion
1 source
MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage
218arXiv cs.RO 

MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage

MapNav est un modèle de navigation guidée par le langage naturel (Vision-and-Language Navigation, VLN) publié sur arXiv (identifiant 2502.13451, version 5). L'idée centrale est de remplacer la mémoire par images historiques, habituellement conservée par les agents VLN pour contextualiser leurs décisions, par une carte sémantique annotée (Annotated Semantic Map, ASM). À chaque épisode de navigation, le système construit une vue de dessus (top-down) de l'environnement, la met à jour à chaque pas de temps, puis y appose des étiquettes textuelles explicites sur les objets et régions clés. Ce flux structuré est ensuite interprété par un modèle vision-langage (VLM) de grande taille dans une architecture end-to-end. Les auteurs annoncent des performances état de l'art sur benchmarks simulés et en environnement réel, et prévoient de publier code source et jeu de données associés. L'apport principal est architectural : substituer les trames brutes par une carte compacte et annotée réduit la charge mémoire et le coût de calcul, deux obstacles concrets à l'embarquement sur plateformes robotiques à ressources limitées. Les étiquettes textuelles directement inscrites sur la carte transforment une représentation abstraite en signal interprétable par un VLM sans reformater les données brutes, ce qui permet d'exploiter le raisonnement des grands modèles de façon plus directe. La validation en environnement réel, si elle est confirmée par des reproductions indépendantes, représenterait un progrès tangible dans la réduction du sim-to-real gap qui pénalise encore la majorité des agents VLN. Pour les intégrateurs de robots de service (logistique, hospitalier, résidentiel), une représentation aussi compacte facilite l'interfaçage avec des systèmes d'instruction en langage naturel. La navigation par instruction verbale en environnement inconnu est un problème de référence depuis le benchmark R2R (Room-to-Room, 2018). Les approches récentes (ETPNav, BEVBert, NavGPT) ont progressivement intégré des cartes métriques et des LLM, mais maintiennent souvent une fenêtre d'historique visuel coûteuse. MapNav s'inscrit dans la lignée des méthodes map-centric tout en capitalisant sur les VLM modernes. Cette publication est un preprint arXiv en cinquième révision, sans affiliation industrielle identifiée, et ses revendications SOTA devront être validées sur benchmarks standardisés par des équipes tierces, étape non négligeable dans une littérature VLN où les comparaisons sont souvent contestées.

RechercheOpinion
1 source
RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)
219arXiv cs.RO 

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

Des chercheurs publient sur arXiv (arXiv:2605.09410) RePO-VLA, un framework d'optimisation de politique pour modèles VLA (Vision-Language-Action) conçu pour améliorer la robustesse en manipulation bimanuelle sur des tâches longues et à fort contact. Le problème central identifié: les pipelines d'entraînement classiques exploitent uniquement les trajectoires réussies, abandonnant les épisodes ratés et rendant les modèles fragiles à la moindre perturbation d'exécution. RePO-VLA introduit trois mécanismes distincts: la Recovery-Aware Initialization (RAI), qui isole les segments de récupération et réinitialise l'historique d'état pour que les actions correctives s'ancrent dans l'état adverse courant plutôt que dans l'enchaînement d'erreurs précédent; la Progress-Aware Semantic Value Function (PAS-VF), qui attribue une valeur aux préfixes utiles des trajectoires échouées via un mécanisme de "reliability decay"; et le Value-Conditioned Refinement (VCR), qui entraîne la politique à sélectionner les actions à haute progression. Les auteurs introduisent également FRBench, un benchmark standardisé d'injection d'erreurs orienté récupération. Sur des tâches bimanuelle simulées et réelles, le taux de succès en conditions adverses passe de 20% à 75% en moyenne, et jusqu'à 80% lors d'essais réels à grande échelle. Ce résultat marque une rupture avec les pipelines dominants. Physical Intelligence (Pi-0, Pi-0.5), Figure AI et la quasi-totalité des approches VLA académiques s'entraînent exclusivement sur des trajectoires réussies, sacrifiant l'information contenue dans les épisodes ratés. RePO-VLA démontre que ces données sont exploitables à condition d'être labélisées en fonction de leur degré de progression vers l'objectif. Autre avantage pour le déploiement industriel: à l'inférence, aucun détecteur de défaillance en ligne n'est requis. Un simple paramètre fixe (v=1.0) suffit à biaiser les actions vers le manifold de succès appris, ce qui simplifie considérablement l'intégration en production sur des tâches de manipulation répétitive longue durée. Les VLA sont en 2025-2026 l'un des axes de recherche les plus actifs en robotique manipulatrice, portés par Physical Intelligence, Figure AI, et des laboratoires comme Berkeley, Stanford et CMU. La manipulation bimanuelle en contact représente l'échelon de difficulté le plus élevé: elle concentre les problèmes de sim-to-real gap, de gestion du contact imprédictible et de dérive d'exécution sur de longues séquences. RePO-VLA reste pour l'instant un article arXiv sans annonce de déploiement ni partenariat industriel associé. FRBench pourrait toutefois s'imposer comme référence communautaire pour évaluer la robustesse en récupération d'erreur, critère aujourd'hui absent des benchmarks standards comme LIBERO ou RoboSuite.

RechercheOpinion
1 source
LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)
220arXiv cs.RO 

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a déposé en mai 2026 sur arXiv un préprint décrivant LoopVLA, une nouvelle architecture de modèle Vision-Language-Action (VLA) conçue pour la manipulation robotique en boucle fermée. L'idée centrale : les VLA actuels utilisent systématiquement la représentation la plus abstraite de leur backbone vision-langage pour prédire les actions, ce qui se révèle sous-optimal pour les ajustements spatiaux fins et répétitifs qu'implique la manipulation de précision. LoopVLA remplace cette logique par un bloc Transformer partagé appliqué de manière récurrente : à chaque itération, le modèle produit à la fois une action candidate et un score de suffisance estimant si un raffinement supplémentaire est nécessaire. L'apprentissage de ce score, en l'absence de supervision directe, repose sur un objectif d'alignement de distribution auto-supervisé : les scores de confiance intermédiaires sont entraînés à refléter la qualité relative des actions produites à chaque étape de raffinement. Sur les benchmarks LIBERO, LIBERO-Plus et VLA-Arena, LoopVLA réduit le nombre de paramètres de 45 % et améliore le débit d'inférence jusqu'à 1,7 fois, tout en atteignant ou surpassant les baselines de référence sur les taux de réussite aux tâches. Le gain est concret pour les équipes qui déploient des VLA sur matériel embarqué ou sous contraintes de latence : un facteur 1,7x sur le throughput d'inférence peut faire la différence entre un robot capable de répondre en boucle de contrôle serrée et un système trop lent pour la production. L'approche remet également en question un postulat dominant dans le domaine, à savoir que la représentation la plus profonde est toujours la meilleure pour l'action. En montrant qu'une sortie anticipée guidée par un signal appris suffit à maintenir les performances, LoopVLA plaide contre le dogme "plus profond égale meilleur" pour la manipulation de précision, où les indices géométriques bas-niveau (position du préhenseur, orientation d'un objet) sont souvent dégradés par une abstraction excessive. Les VLA sont au coeur d'une compétition intense depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Octo (UC Berkeley). La plupart de ces modèles héritent d'une logique "backbone figé + tête d'action" sans remettre en question la profondeur de représentation utilisée. LoopVLA s'inscrit dans la lignée des travaux sur l'early exit et le calcul adaptatif, comparable aux Mixture of Depths de DeepMind, mais appliqués à la politique robotique. Il n'y a pas de déploiement industriel annoncé : il s'agit d'un résultat de recherche avec évaluations uniquement en simulateur (LIBERO est un benchmark sim). La prochaine étape naturelle serait une validation sur robot réel pour mesurer le sim-to-real gap, en particulier sur des tâches de manipulation fine.

RechercheOpinion
1 source
IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence
221arXiv cs.RO 

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Une équipe de chercheurs a déposé sur arXiv en février 2026 (réf. 2602.21198, v2) un framework baptisé Reflective Test-Time Planning (RTTP), conçu pour résoudre un angle mort structurel de la robotique pilotée par LLM : les agents embarqués traitent chaque essai de façon indépendante, ce qui fait répéter les mêmes erreurs au lieu d'en tirer une expérience cumulative. Le RTTP introduit deux mécanismes : la reflection-in-action, où l'agent génère et évalue plusieurs actions candidates via un scaling à l'inférence avant d'agir, et la reflection-on-action, qui met à jour le modèle de réflexion interne et la politique d'action après exécution via un entraînement à l'inférence. Une troisième composante, la réflexion rétrospective, permet de réévaluer des décisions antérieures pour corriger l'attribution de crédit sur des tâches à long horizon. Les expériences portent sur deux benchmarks : Long-Horizon Household (tâches domestiques séquentielles) et MuJoCo Cupboard Fitting (manipulation en simulation physique), avec généralisation zero-shot vers les environnements HM3D photoréalistes et validation sur bras réel Franka Panda. L'enjeu industriel est direct : le déploiement de robots pilotés par VLA (Vision-Language-Action models) bute sur le demo-to-reality gap, où les modèles performent en laboratoire mais dégradent en conditions variables. RTTP propose une boucle fermée d'adaptation pendant le déploiement, sans fine-tuning offline coûteux. Les ablations confirment que les deux modes de réflexion sont mutuellement dépendants, et que la réflexion rétrospective surpasse le feedback step-wise classique avec un overhead computationnel inférieur, un avantage concret pour les intégrateurs soucieux de maîtriser les coûts d'inférence à l'échelle. Cette contribution s'inscrit dans la vague du test-time scaling, popularisée par les modèles de raisonnement d'OpenAI et Google DeepMind, mais appliquée à l'action robotique incarnée plutôt qu'au raisonnement abstrait. Les auteurs ne mentionnent ni partenariat industriel ni timeline commerciale : c'est un preprint de recherche, pas un produit shipé. Les travaux concurrents dans cette direction incluent les VLAs de Physical Intelligence (pi0), le programme RT-2-X de Google DeepMind et les recherches sur l'apprentissage online menées à Carnegie Mellon et Berkeley. Aucun acteur français ou européen n'est impliqué dans cette publication.

RechercheOpinion
1 source
Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde
222arXiv cs.RO 

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

Une équipe de chercheurs propose Wavelet Policy (arXiv:2504.04991), un framework léger d'apprentissage par imitation pour la manipulation robotique. L'approche combine deux innovations : une mémoire de scène persistante appelée World Prior Memory (WPM), qui encode la structure statique de l'environnement à partir d'images de fond dans des vecteurs compacts, et une modélisation des actions par décomposition en ondelettes (wavelet-domain decomposition). L'architecture résultante, baptisée Single-Encoder Multiple-Decoder (SE2MD), décompose les représentations latentes des actions en sous-bandes temporelles distinctes, reconstruites via transformée inverse avant d'être projetées en séquences d'actions exécutables. Validée sur quatre tâches simulées et six tâches réelles de manipulation robotique, la méthode surpasse les baselines de référence sur l'ensemble des benchmarks. Le code source, les données et les poids du modèle sur tâches simulées sont disponibles publiquement sur GitHub. L'enjeu central est double. D'une part, les politiques visuomotrices classiques (ACT, Diffusion Policy) opèrent entièrement dans le domaine temporel et peinent à maintenir une conscience cohérente de la scène physique sur des horizons longs. D'autre part, les architectures à modèle du monde qui résolvent ce problème imposent un surcoût computationnel significatif, incompatible avec un déploiement embarqué sur robot. Wavelet Policy avance que la décomposition fréquentielle des représentations d'actions latentes suffit à capturer simultanément les composantes rapides (corrections fines) et lentes (planification gestuelle) sans recourir à un modèle du monde explicite. Pour les intégrateurs industriels et les équipes R&D embarquées, cela ouvre la voie à des politiques de manipulation longue-horizon déployables avec des ressources de calcul modestes. Le travail s'inscrit dans une compétition intense sur les politiques visuomotrices généralisées : Physical Intelligence a publié π0 fin 2024 sur des tâches de manipulation complexes, NVIDIA a proposé GR00T N2 avec apprentissage par simulation, et des laboratoires académiques comme Stanford ou Berkeley poussent des variantes de Diffusion Policy et d'imitation par Transformer. Wavelet Policy se positionne comme une alternative légère, sans prétendre au déploiement sur robot humanoïde : les expériences réelles restent au stade du bras manipulateur en environnement contrôlé. Publié en version preprint (v4, avril 2025), le travail n'a pas encore fait l'objet d'une publication dans une conférence de rang A (ICRA, CoRL, RSS), ce qui invite à nuancer la portée des résultats annoncés avant validation par les pairs.

RechercheOpinion
1 source
Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis
223arXiv cs.RO 

Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis

Des chercheurs ont publié sur arXiv (référence 2605.08757) un système de collecte de données visuo-tactile conçu pour générer des démonstrations de manipulation riches en contacts, destinées à l'apprentissage par imitation. Le dispositif repose sur une pince à entraînement direct que l'opérateur actionne directement avec ses doigts, préservant ainsi le retour haptique naturel pendant l'exécution des tâches. Des capteurs visuels embarqués et des réseaux de capteurs tactiles personnalisés capturent simultanément des flux d'images et la géométrie des contacts. Un bouton-poussoir monté sur la poignée permet à l'opérateur d'annoter en temps réel la structure temporelle de la tâche, en marquant les phases critiques au moment même où elles se produisent. L'ensemble produit des jeux de données multimodaux structurés temporellement, exploitables par des algorithmes d'apprentissage "coarse-to-fine" (du grossier au fin). L'apport principal est d'ordre méthodologique : les systèmes de téleopération conventionnels dissocient l'opérateur des forces de contact, ce qui empêche de démontrer les modulations fines de force nécessaires à des manipulations précises, serrage d'une pièce fragile, insertion avec ajustement, assemblage à faible jeu. En couplant la perception des forces en main avec une annotation temporelle in situ, le système permet de produire des politiques de manipulation de meilleure qualité sans augmenter le volume de données collectées. Pour les intégrateurs qui cherchent à déployer des robots sur des tâches de contact (assemblage, tri délicat, industrie pharmaceutique), c'est une piste sérieuse pour réduire le "demo gap" entre les démonstrations humaines et ce que le robot reproduit réellement. Ce travail s'inscrit dans une dynamique intense autour de la collecte de données de haute qualité pour le robot learning. Les architectures de référence actuelles, ALOHA et ACT de Stanford, UMI de Columbia, ou encore les systèmes de Physical Intelligence derrière pi-0, ont montré que la qualité des démonstrations prime souvent sur leur quantité. Là où ALOHA mise sur la téleopération bimanuelle et UMI sur la portabilité via poignée universelle, ce système parie sur la boucle haptique fermée et l'annotation sémantique embarquée. Aucun déploiement industriel ni partenaire commercial n'est mentionné à ce stade : il s'agit d'une contribution de recherche, sans timeline de productisation annoncée.

RecherchePaper
1 source
Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs
224arXiv cs.RO 

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

RechercheOpinion
1 source
Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation
225MarkTechPost 

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper
1 source
SocialReasoning-Bench : évaluer si les agents IA agissent dans l'intérêt des utilisateurs
226Microsoft Research 

SocialReasoning-Bench : évaluer si les agents IA agissent dans l'intérêt des utilisateurs

Des chercheurs ont publié SocialReasoning-Bench, un nouveau dispositif d'évaluation conçu pour mesurer la capacité des agents d'intelligence artificielle à défendre réellement les intérêts de leurs utilisateurs lors d'interactions sociales. Le benchmark se déploie dans deux scénarios concrets : la coordination de calendrier, où un agent gère les disponibilités d'un utilisateur face à une demande de réunion d'un autre agent, et la négociation commerciale en ligne, où l'agent doit obtenir les meilleures conditions d'achat ou de vente. Chaque scénario est évalué selon deux critères : l'optimisation du résultat obtenu pour l'utilisateur et la qualité du processus décisionnel suivi. Les résultats sur les modèles actuels de pointe sont décevants : les agents accomplissent généralement la tâche, mais acceptent trop souvent des créneaux horaires défavorables ou des offres commerciales médiocres plutôt que de négocier fermement. Même lorsqu'on leur demande explicitement d'agir dans l'intérêt de l'utilisateur, leurs performances restent bien en deçà de ce qu'on attendrait d'un mandataire fiable. L'enjeu est concret et croissant. Des outils comme Claude Cowork d'Anthropic ou Google Gemini s'intègrent déjà aux calendriers et aux boîtes mail pour agir au nom des utilisateurs. Si ces agents acceptent systématiquement le premier compromis venu plutôt que de défendre activement les préférences de la personne qu'ils représentent, ils deviennent des délégués de façade plutôt que de vrais alliés. Le manque de combativité dans la négociation n'est pas anodin : dans un contexte commercial ou professionnel, cela se traduit directement en valeur perdue pour l'utilisateur. La question de la loyauté des agents, distincte de leur simple compétence technique, devient ainsi centrale pour l'adoption à grande échelle de ces systèmes. Ce travail s'inscrit dans une lignée de recherches qui documentent les fragilités sociales des modèles actuels. Des expériences antérieures avaient montré que des agents dans un marché simulé acceptaient la première proposition reçue dans jusqu'à 93 % des cas sans explorer les alternatives. Une autre étude de red-teaming avait démontré qu'un seul message malveillant pouvait se propager dans un réseau d'agents et les amener à divulguer des données privées. Le cadre conceptuel mobilisé est celui de la relation principal-agent, bien établi en économie et en droit : avocats, agents immobiliers et conseillers financiers sont soumis depuis des siècles à des obligations de diligence, de loyauté et de confidentialité envers leurs mandants. SocialReasoning-Bench vise à créer une référence mesurable pour forcer les modèles à s'aligner sur ces mêmes standards, à mesure que les agents IA s'immiscent dans des contextes toujours plus sensibles.

UEDans le contexte de l'AI Act européen, ce benchmark pourrait servir de référence pour évaluer et imposer des standards de loyauté des agents IA déployés sur le marché européen.

RechercheOpinion
1 source
Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs
227MarkTechPost 

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

Des chercheurs de Sakana AI et NVIDIA ont publié en mai 2026 un article accepté à ICML 2026 (arXiv:2603.23198) présentant TwELL, un nouveau format de calcul creux accompagné de noyaux CUDA dédiés, permettant d'accélérer les grands modèles de langage de 20,5 % à l'inférence et de 21,9 % à l'entraînement. Le travail cible les couches feedforward des transformeurs, qui concentrent plus des deux tiers des paramètres d'un modèle et consomment plus de 80 % des opérations flottantes totales. Le constat de départ est frappant : pour n'importe quel token traité, plus de 99 % des neurones cachés dans ces couches produisent une valeur nulle après la fonction d'activation. Cette sparsité dite "d'activation" existe donc à grande échelle, mais n'avait jusqu'ici jamais pu être exploitée efficacement sur GPU. L'impact potentiel est considérable pour l'ensemble de l'industrie du calcul IA. Les GPU NVIDIA sont architecturés pour des multiplications matricielles denses via les Tensor Cores, qui exigent de larges blocs de données contiguës. Les formats creux classiques comme ELLPACK nécessitaient un passage kernel supplémentaire pour convertir les activations du format dense au format creux, une surcharge qui annulait tout gain. Les travaux précédents de sparsité dans les LLM, notamment TurboSparse, ProSparse et Q-Sparse, ne traitaient que les opérations GEMV à un seul token, un cas marginal en production. TwELL résout le problème réellement difficile : les opérations GEMM batchées avec des milliers de tokens simultanés, qui correspondent à la fois à l'inférence à haut débit et à l'entraînement. Un gain de 20 % sur ces régimes se traduit directement par des économies massives en coût de calcul et en consommation électrique pour quiconque opère des modèles à l'échelle. L'innovation technique centrale de TwELL réside dans un découpage des colonnes en tuiles horizontales correspondant exactement à la taille de tuile T_n du kernel de multiplication matricielle. Les valeurs non nulles sont compactées localement dans chaque tuile, et cette construction s'effectue dans l'épilogue du kernel de projection existant, sans kernel supplémentaire, sans lecture mémoire additionnelle ni synchronisation entre blocs. À l'inférence, un seul kernel fusionné lit les activations au format TwELL et effectue les projections montante et descendante conjointement, évitant d'écrire l'état caché intermédiaire en mémoire globale et réduisant ainsi drastiquement le trafic DRAM. Pour l'entraînement, un format hybride route dynamiquement chaque ligne vers une matrice ELL compacte ou vers un bloc dense de secours selon le taux de sparsité local. Ce travail ouvre la voie à des optimisations architecturales profondes sans modifier les poids ni les architectures existantes, une direction que d'autres laboratoires devraient rapidement explorer.

RecherchePaper
1 source
UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table
228arXiv cs.RO 

UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table

Une équipe de chercheurs a publié UNCOM (arXiv:2410.06355v3), un framework hybride conçu pour interpréter des commandes humaines naturelles dans des scénarios de manipulation sur table. Le système fusionne trois modalités d'entrée, la parole, les gestes et le contexte visuel de la scène, pour en extraire des instructions structurées et exécutables par un robot. UNCOM repose sur des modèles de deep learning pour la reconnaissance vocale, la compréhension du langage naturel, la détection de gestes et la segmentation d'objets. Son atout central est le fonctionnement en zero-shot : aucun modèle d'objet prédéfini ni données d'entraînement spécifiques à une tâche ne sont requis. Le système a été évalué sur le robot TIAGo++ (PAL Robotics) et atteint un taux de succès de 82,39% sur un jeu de données réel de scénarios d'interaction humain-robot. Le code, le dataset et les scénarios d'évaluation sont rendus publics. L'enjeu principal est la généralisation sans réentraînement. La plupart des systèmes de compréhension de commandes actuels exigent soit un catalogue d'objets figé, soit une phase de fine-tuning pour chaque nouvel environnement, ce qui freine le déploiement domestique et les environnements non contrôlés. UNCOM contourne cet obstacle grâce à son architecture modulaire qui parse explicitement les commandes en triplets objet-action-cible, une représentation directement intégrable dans des frameworks robotiques symboliques classiques. La robustesse annoncée face au bruit, à l'ambiguïté et à la diversité des locuteurs est ce qui distingue ce résultat d'une simple démo en conditions idéales, bien que le taux de 82,39% mériterait d'être contextualisé par la complexité des scènes testées. Le TIAGo++ est une plateforme de recherche développée par PAL Robotics (Barcelone), largement utilisée dans les labos européens pour l'interaction service-robot. L'approche multimodale de UNCOM s'inscrit dans un courant de recherche actif qui cherche à dépasser les VLA (Vision-Language-Action models) classiques nécessitant de grandes quantités de données supervisées, en s'appuyant plutôt sur des modèles fondationnels génériques. Elle se positionne en alternative légère à des systèmes comme SayCan (Google) ou aux approches OpenVLA, sans requérir d'infrastructure d'entraînement lourde. La mise à disposition publique du code et du dataset est un signal positif pour la reproductibilité, et ouvre la voie à des extensions vers d'autres plateformes ou d'autres types d'environnements structurés, notamment les applications de service en milieu hospitalier ou d'assistance à domicile.

UEPAL Robotics (Barcelone) est l'industriel européen dont la plateforme TIAGo++ sert de banc d'essai, et le code/dataset publics permettent aux labos européens (CEA-List, INRIA, universités) de reproduire et d'étendre UNCOM sans infrastructure lourde.

💬 82% en zero-shot sur des scènes réelles, c'est le genre de résultat qui mérite qu'on s'arrête. Le mur dans les robots de service, c'était le fine-tuning obligatoire pour chaque nouvel environnement, UNCOM l'esquive en parsant les commandes en triplets objet-action-cible sans catalogue figé. Bon, reste à voir ce que ça donne dans une vraie cuisine avec ses 50 objets non étiquetés et une mamie qui parle en patois.

RechercheActu
1 source
Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
229arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

RechercheOpinion
1 source
NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action
230arXiv cs.RO 

NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action

Une équipe de chercheurs publie sur arXiv (2605.07794) NoiseGate, une méthode pour améliorer les World Action Models (WAM), catégorie émergente de politiques robotiques qui couplent génération d'actions et modélisation prédictive d'observations futures. Dans ce paradigme, actions et frames anticipées sont co-générées le long d'une trajectoire de débruitage partagée via une architecture Mixture-of-Transformers (MoT), où tokens vidéo et tokens action interagissent par attention partagée. Le défaut identifié est structurel : les WAM actuels appliquent un unique scalaire de bruit à toutes les frames latentes prédites, supposant implicitement que chaque observation future est également fiable pour décider de l'action. NoiseGate remplace ce scalaire unifié par un schedule appris individuellement pour chaque latent : un réseau léger, le Gating Policy Network, émet des incréments de timestep par frame à chaque étape de débruitage, entraîné par optimisation de récompense de tâche sans prior codé manuellement. Les auteurs rapportent des gains consistants sur les benchmarks de manipulation RoboTwin en scènes aléatoires. L'apport de NoiseGate dépasse le gain de performance : il remet en question une hypothèse implicite centrale aux politiques robotiques à base de diffusion. Sous l'angle du Diffusion Forcing, le niveau de bruit joue le rôle d'un masque d'information ; assigner le même niveau à toutes les frames prédites revient à accorder une confiance uniforme à des observations qui diffèrent en certitude selon l'horizon temporel ou la variabilité de scène. Rendre ce schedule apprenable et par-latent permet au modèle de down-pondérer dynamiquement les frames incertaines lors de la génération d'action, ce qui est particulièrement pertinent pour des manipulations impliquant des séquences longues ou des environnements stochastiques. Pour les équipes travaillant sur des architectures VLA, cela valide le couplage fin entre qualité de prédiction vidéo et décision motrice. Les WAM s'inscrivent dans la tendance à unifier modélisation du monde et politique de contrôle dans un seul modèle génératif, approche que poursuivent aussi Physical Intelligence avec π0 et NVIDIA avec GR00T N2. Le concept de Diffusion Forcing, sur lequel NoiseGate s'appuie conceptuellement, permet l'inférence causale et le débruitage séquentiel dans des architectures multi-modales ; l'architecture MoT utilisée comme backbone est au coeur de plusieurs projets de robotique généraliste. L'étape suivante serait de valider l'approche sur des plateformes physiques réelles : les résultats présentés, obtenus en simulation RoboTwin, restent à confirmer en conditions réelles.

RechercheOpinion
1 source
HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures
231arXiv cs.RO 

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

Des chercheurs ont publié HumanNet, un corpus vidéo d'un million d'heures centré sur les activités humaines, conçu pour alimenter l'apprentissage de l'intelligence embodied à grande échelle. Disponible sous forme de preprint arXiv (2605.06747), le dataset couvre des perspectives à la fois à la première et à la troisième personne, et capture des interactions fines avec des objets, l'utilisation d'outils, et des comportements de longue durée dans des environnements réels variés. Au-delà de la vidéo brute, HumanNet fournit des annotations centrées sur l'interaction : légendes textuelles, descriptions de mouvement, et signaux liés aux mains et au corps. L'expérience clé de validation compare deux configurations d'entraînement continu à partir du modèle Qwen VLM : 1 000 heures de vidéo égocentrique tirées de HumanNet surpassent 100 heures de données issues de robots réels (Magic Cobot) sur un ensemble fixe de données de validation. Ce résultat, s'il se confirme à plus grande échelle, remet en cause un dogme du secteur : l'idée que les modèles VLA (Vision-Language-Action) nécessitent impérativement des données collectées sur des robots physiques pour progresser. La collecte de données robot est coûteuse, lente, et difficile à diversifier, ce qui constitue l'un des principaux goulots d'étranglement dans la course aux systèmes généralistes. HumanNet propose un chemin alternatif : exploiter la vidéo humaine comme substitut scalable et économique, en transférant des représentations motrices et interactives vers les systèmes robotiques. Il faut toutefois nuancer l'ambition de la démonstration : la validation présentée se limite à une seule ablation contrôlée sur un sous-ensemble de tâches, et aucun résultat en déploiement réel sur des robots n'est encore disponible. Ce projet s'inscrit dans une compétition plus large pour constituer des datasets à grande échelle pour l'embodied AI. Des corpus comme Ego4D (Meta, 3 500 heures), Epic-Kitchens ou Something-Something ont posé des jalons, mais aucun n'atteignait le million d'heures ni ne proposait ce niveau d'annotation motion-aware. Côté modèles, les concurrents directs incluent pi-0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind et Helix de Figure AI, tous confrontés au même problème de rareté des données robot. HumanNet ne s'accompagne d'aucune annonce commerciale ni de timeline de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche qui devra être validée dans des contextes robotiques réels avant de modifier les pratiques des intégrateurs.

💬 1000 heures de vidéo humaine qui surpassent 100 heures de données robot réel, c'est le genre de résultat qui fait mal au dogme du secteur. Si ça se confirme, ça change tout sur le goulot d'étranglement de la robotique généraliste : la collecte de données robot est un cauchemar logistique et financier, et là on parle de le contourner avec du YouTube. Bon, une ablation sur un sous-ensemble de tâches, c'est pas encore la preuve en déploiement, mais l'idée est là.

RechercheOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
232arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

RechercheOpinion
1 source
BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM
233Apple Machine Learning 

BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM

Des chercheurs ont présenté BalCapRL, un nouveau cadre d'entraînement par apprentissage par renforcement (RL) conçu pour améliorer la génération automatique de légendes d'images par les grands modèles de langage multimodaux (MLLM). Face aux limites des méthodes RL existantes, BalCapRL cherche à équilibrer plusieurs dimensions de qualité simultanément dans la description d'images, une tâche considérée comme fondamentale en vision par ordinateur et qui a gagné en importance avec l'essor des MLLM. Les approches RL actuelles pour la génération de légendes souffrent d'un défaut structurel : en optimisant une métrique unique orientée utilité, elles produisent des descriptions trop longues, bruitées ou carrément hallucinées. Ces travers ont des conséquences concrètes pour les applications industrielles qui dépendent de légendes fiables, comme l'accessibilité numérique, l'indexation d'images ou les moteurs de recherche visuelle. BalCapRL propose un cadre plus équilibré qui préserve plusieurs critères de qualité en même temps, évitant les compromis indésirables qu'introduisent les métriques d'évaluation trop étroites. La génération de légendes d'images a connu un regain d'intérêt avec l'essor de modèles comme GPT-4V, LLaVA ou Gemini, capables de décrire des scènes visuelles en langage naturel. L'application du RL à ces modèles, popularisée par les travaux sur le RLHF dans les LLM textuels, est devenue une piste prometteuse mais difficile à maîtriser. BalCapRL s'inscrit dans cette dynamique en cherchant à corriger les biais induits par des objectifs d'optimisation trop réducteurs, un enjeu central pour l'alignement des modèles multimodaux à mesure qu'ils s'imposent dans les usages professionnels.

RecherchePaper
1 source
AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)
234arXiv cs.RO 

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié AsyncVLA (arXiv:2511.14148), un cadre pour modèles Vision-Language-Action (VLA) qui remplace le flow matching synchrone (SFM) conventionnel par un mécanisme asynchrone (AFM) à calendrier temporel non uniforme. Là où le SFM applique un pas de temps identique à tous les tokens d'action, AsyncVLA ajuste ce calendrier en fonction du contexte actionnel en cours, et intègre un module "confidence rater" qui évalue la fiabilité de chaque token généré pour déclencher une auto-correction sélective avant exécution. La procédure d'entraînement est unifiée: un seul modèle peut opérer en mode SFM ou AFM, avec une meilleure utilisation du cache KV. Sur les benchmarks de manipulation robotique en simulation et en conditions réelles, AsyncVLA surpasse les méthodes existantes avec une efficacité accrue en données d'entraînement. Le code est publié en open source sur GitHub. L'instabilité des VLA sur les tâches longue durée (long-horizon) est l'un des principaux freins à leur déploiement industriel: en SFM, une erreur d'action se propage en cascade jusqu'à l'échec complet de la séquence. La capacité d'auto-correction d'AsyncVLA adresse directement ce point, ce qui intéresse les intégrateurs et les équipes robotiques confrontées à des cycles opératoires de plusieurs minutes. L'efficacité en données est un argument complémentaire: entraîner des VLA compétitifs nécessite aujourd'hui des datasets massifs et coûteux, et une méthode qui atteint de meilleures performances avec moins de données réduit la barrière d'entrée. Il faut toutefois nuancer: le papier se limite à des benchmarks de manipulation sans publier de chiffres de déploiement à l'échelle, de temps de cycle réels, ni de résultats sur une flotte opérationnelle. Les VLA à base de flow matching ont été popularisés par Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2024, établissant un standard de génération d'actions continues pour la robotique généraliste. AsyncVLA s'inscrit dans une tendance de raffinement algorithmique de ces architectures, aux côtés d'approches comme OpenVLA, la distillation de politique diffusion, ou les modèles hybrides VLA et planificateur symbolique. Son avantage comparatif est la compatibilité directe avec les pipelines SFM existants, sans rupture architecturale majeure, ce qui facilite l'adoption par les équipes déjà engagées sur ces bases. Les prochaines étapes crédibles seraient une validation sur des robots humanoïdes (Figure, 1X, Unitree) ou des bras industriels en production réelle, là où la robustesse long-horizon reste le goulot d'étranglement dominant.

💬 Le problème de propagation d'erreur en cascade dans les VLA, c'est exactement ce qui bloque le déploiement industriel depuis des mois. AsyncVLA l'attaque frontalement avec un mécanisme de correction sélective avant exécution, et la compatibilité directe avec les pipelines SFM existants (Pi-0, GR00T) rend l'adoption crédible sans tout casser. Reste à voir ce que ça donne sur des cycles de 10 minutes en prod réelle, pas juste en simulation.

RechercheOpinion
1 source
Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
235arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

RechercheOpinion
1 source
CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde
236arXiv cs.RO 

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06247) CKT-WAM, un cadre de transfert de connaissances paramètre-efficient entre modèles d'action du monde (WAMs, World Action Models). L'approche résout un verrou persistant : faire bénéficier un WAM étudiant des représentations apprises par un WAM enseignant plus capable, sans réentraîner l'ensemble du réseau. Techniquement, CKT-WAM extrait des états cachés intermédiaires de l'enseignant, les compresse via une attention croisée à requêtes apprenables (LQCA), les transforme à travers un adaptateur généralisé toujours actif et des adaptateurs spécialisés à activation parcimonieuse, puis injecte ce contexte compact dans les embeddings textuels de conditionnement de l'étudiant. Sur le benchmark LIBERO-Plus, le système atteint 86,1 % de taux de réussite global en n'entraînant que 1,17 % des paramètres du modèle étudiant, approchant les performances du fine-tuning complet. En conditions réelles, quatre tâches de manipulation longue portée ont été évaluées avec 83,3 % de réussite moyenne, résultat présenté comme meilleur de la catégorie par les auteurs. Le code est disponible sur GitHub (YuhuaJiang2002/CKT-WAM). L'enjeu industriel est direct : affiner un WAM ou un VLA (Vision-Language-Action model) de taille fondationnelle exige des ressources GPU considérables ; descendre à 1,17 % de paramètres entraînables tout en conservant des performances comparables ouvre une voie concrète pour les équipes R&D à ressources limitées. La démonstration d'une généralisation zero-shot suggère que le contexte transféré encode des capacités motrices transposables au-delà des tâches d'entraînement, ce qui valide partiellement l'hypothèse d'une composabilité des modèles robotiques génératifs. Deux réserves s'imposent toutefois : les quatre scénarios réels évalués restent trop peu nombreux pour conclure à une robustesse hors laboratoire, et les conditions d'évaluation (définition du succès, variabilité environnementale, sélection des vidéos) ne sont pas détaillées dans le preprint, ce qui limite la portée des chiffres annoncés. CKT-WAM s'inscrit dans la vague actuelle des modèles robotiques fondationnels interopérables, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). L'idée de capitaliser sur des modèles enseignants hétérogènes plutôt que de réentraîner from scratch rejoint les travaux de distillation de connaissances explorés en académique comme en industrie, dans un contexte où la course aux WAMs s'accélère significativement depuis 2025. En Europe, Enchanted Tools et Wandercraft développent des architectures de contrôle avancées, bien que moins orientées WAMs dans leurs publications récentes. La suite logique serait une validation sur des benchmarks plus larges comme DROID ou Open-X Embodiment, et des expérimentations terrain pour confirmer la robustesse réelle du transfert en dehors des environnements contrôlés.

UELes équipes R&D européennes travaillant sur des VLAs à ressources GPU limitées (dont Enchanted Tools et Wandercraft) pourraient exploiter ce framework pour réduire drastiquement le coût d'affinage de modèles fondationnels robotiques, dès validation sur des benchmarks plus larges.

💬 1,17 % des paramètres entraînés pour des perfs comparables au fine-tuning complet, c'est le genre de chiffre qui change les plans de roadmap. Les équipes qui rêvaient de WAMs génératifs mais bloquaient sur le budget GPU vont regarder ça de près. Bon, quatre tâches réelles c'est maigre pour crier victoire, mais l'axe est le bon.

RechercheOpinion
1 source
OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste
237arXiv cs.RO 

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

RechercheOpinion
1 source
DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables
238arXiv cs.RO 

DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables

DexSynRefine est un framework de manipulation dextre présenté dans un preprint arXiv daté de mai 2026, conçu pour apprendre des gestes robotiques complexes à partir de données d'interaction humain-objet (HOI) plutôt que par téléopération. L'architecture repose sur trois composants couplés : HOI-MMFP, une extension des "motion manifold primitives" conditionnée par la tâche et l'état initial de l'objet, qui synthétise des trajectoires coordonnées main-objet à partir de démonstrations HOI éparses ; une politique de renforcement résiduelle dans l'espace de la tâche, qui ancre physiquement ces trajectoires de référence tout en héritant de leur structure cinématique ; et un module d'adaptation contact-dynamique qui exploite l'historique proprioceptif pour le transfert sim-to-réel. Le système a été évalué sur cinq tâches : saisie-dépôt, utilisation d'outils et réorientation d'objets. Sur le robot réel, il améliore les taux de succès de 50 à 70 points de pourcentage par rapport au retargeting cinématique classique, et réussit le transfert sur la totalité des cinq tâches. Ce résultat est notable pour les intégrateurs et décideurs industriels parce qu'il adresse simultanément deux verrous majeurs de la manipulation dextre : le mismatch d'embodiment (les mains humaines et les mains robotiques ont des cinématiques incompatibles) et le sim-to-real gap dans des tâches contact-rich. L'approche HOI comme source de données est une alternative à l'échelle à la téléopération, coûteuse en opérateurs qualifiés. La politique résiduelle RL préserve la structure des démos tout en corrigeant la physique, ce qui limite l'exploration RL brute dans des espaces à haute dimension. Le gain de 50-70 pp est annoncé sur des évaluations internes, les conditions de test n'étant pas encore détaillées dans ce preprint préliminaire, ce qui invite à une lecture prudente avant généralisation. DexSynRefine s'inscrit dans une ligne de travaux sur la manipulation dextre post-dexterous-RL qui cherchent à s'affranchir de la téléopération (Dexterous Imitation, AnyDexGrasp, RoboAgent). Les motion manifold primitives sur lesquels s'appuie HOI-MMFP sont un outil issu de la synthèse de mouvement humain adapté ici au domaine robotique. Les concurrents directs incluent les approches de retargeting cinématique pur, les politiques diffusion comme pi-zero et les méthodes VLA appliquées à la manipulation fine. Le papier n'annonce pas de déploiement industriel ni de partenariat commercial, et reste au stade de la démonstration académique en laboratoire. Les prochaines étapes probables concernent la généralisation à des objets non vus et l'intégration dans des pipelines de données HOI à grande échelle.

RecherchePaper
1 source
RVPO : un alignement sensible au risque par régularisation de la variance
239Apple Machine Learning 

RVPO : un alignement sensible au risque par régularisation de la variance

Les méthodes actuelles d'alignement des grands modèles de langage par renforcement humain (RLHF), comme celles sans critique explicite, agrègent plusieurs objectifs de récompense via une simple moyenne arithmétique. Une équipe de chercheurs propose RVPO (Reward-Variance Policy Optimization), un cadre d'optimisation sensible au risque qui corrige une faille structurelle de ces approches : la "négligence des contraintes". Concrètement, un modèle peut obtenir un score global élevé en excellant sur un objectif, tout en échouant silencieusement sur un autre, comme la sécurité ou le respect du format. Ce problème n'est pas anodin : dans des déploiements réels, un modèle qui ignore systématiquement une contrainte de sécurité tout en produisant des réponses très fluentes reste dangereux, même si sa récompense moyenne paraît satisfaisante. RVPO répond à cela en pénalisant la variance entre les différentes récompenses lors de l'agrégation des avantages, déplaçant l'objectif d'un "maximiser la somme" vers un "maximiser la cohérence". Le modèle est ainsi incité à progresser de manière équilibrée sur tous les axes plutôt qu'à suroptimiser l'un d'eux. L'alignement multi-objectif est l'un des défis centraux du développement des LLM fiables, à mesure que ces systèmes doivent simultanément respecter la sécurité, la précision factuelle, les instructions de format et les préférences utilisateurs. Les approches sans modèle critique, popularisées notamment par DPO et ses dérivés, ont l'avantage d'être moins coûteuses à entraîner, mais leur agrégation naïve des signaux reste un point faible. RVPO, justifié mathématiquement via un développement de Taylor, ouvre une piste concrète pour rendre ces méthodes plus robustes face aux compromis critiques.

RechercheOpinion
1 source
Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données
240MarkTechPost 

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper
1 source
☕️ Google DeepMind s’attaque à EVE Online
241Next INpact 

☕️ Google DeepMind s’attaque à EVE Online

Google DeepMind a annoncé un partenariat avec Fenris Creations, le studio islandais opérateur d'EVE Online, pour entraîner une intelligence artificielle dans l'univers de ce MMORPG culte lancé en 2003. La collaboration, dont les détails techniques restent partiellement flous, sera précisée lors de la Fanfest, le rassemblement annuel de la communauté EVE, la semaine prochaine, avec une intervention prévue d'Adrian Bolton, l'un des fondateurs du laboratoire. Dans un premier temps, les recherches se dérouleront dans des environnements contrôlés et hors ligne du jeu. Google DeepMind a également pris une participation minoritaire au capital de Fenris Creations, de l'ordre de quelques millions de dollars. Le studio affichait fin 2025 ses meilleurs résultats depuis plusieurs années. EVE Online représente un défi d'une autre nature que les précédentes conquêtes de DeepMind dans le jeu vidéo. Là où le Go, les échecs ou StarCraft II reposent sur des règles fixes et des objectifs clairs, New Eden, la galaxie persistante du jeu partagée par des milliers de joueurs sur un seul serveur mondial, génère des comportements émergents d'une complexité sociale exceptionnelle : guerres interstellaires, cartels économiques, espionnage industriel, manipulation de marchés, propagande, doctrines militaires et politiques évolutives. Pour Alexandre Moufarek, directeur de Google DeepMind, il s'agit d'une « simulation unique en son genre pour tester une intelligence artificielle généraliste dans un bac à sable sécurisé ». L'enjeu est de taille : développer une IA capable de naviguer dans des environnements ouverts, à long terme et socialement ambigus, ce que les benchmarks classiques ne permettent pas d'évaluer. Ce partenariat s'inscrit dans un moment charnière pour EVE Online. Depuis 2018, le jeu était aux mains de Pearl Abyss, éditeur coréen récemment connu pour Crimson Desert, qui a finalement revendu CCP Games, rebaptisé Fenris Creations, à son fondateur historique Hilmar Veigar Pétursson pour 120 millions de dollars, soit bien en dessous des 225 millions payés lors de l'acquisition initiale. La transaction intègre 20 millions en tokens du jeu EVE Frontier, projet blockchain dont l'avenir reste incertain. C'est donc un studio redevenu indépendant, revigoré par de bons résultats financiers et un partenaire de poids comme Google, qui aborde cette nouvelle phase. Pour DeepMind, après avoir dominé les jeux à règles fermées, EVE Online est peut-être le terrain le plus ambitieux jamais tenté : un monde vivant, imprévisible, peuplé de vraies décisions humaines.

💬 EVE Online, c'est le seul jeu où des humains ont monté des cartels, orchestré des coups d'état et manipulé des marchés pendant 20 ans, sur un seul serveur mondial. Tester une IA généraliste là-dedans face à la vraie complexité sociale, c'est autrement plus ambitieux que battre un pro au Go. Reste à voir si "environnements hors ligne" ne vide pas l'expérience de son intérêt, parce que EVE sans les joueurs, c'est pas grand-chose.

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
242arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

RecherchePaper
1 source
Modélisation neuronale d'ordre réduit avec simulation différentiable pour la perception tactile haute résolution
243arXiv cs.RO 

Modélisation neuronale d'ordre réduit avec simulation différentiable pour la perception tactile haute résolution

Des chercheurs ont publié le 7 mai 2026 sur arXiv (arXiv:2605.05053) un framework de simulation tactile baptisé "reduced-order neural simulation", conçu pour modéliser la déformation haute résolution des élastomères utilisés dans les capteurs tactiles robotiques. Le système couple une dynamique MPM (Material Point Method) à grille grossière avec un décodeur neuronal implicite qui reconstruit les détails sub-particulaires à partir d'états latents compacts. Par rapport à TacIPC, la référence actuelle du domaine, le framework atteint une accélération de simulation supérieure à 65 % et une réduction de 40 % de l'empreinte mémoire, tout en améliorant la fidélité géométrique. En rendu tactile et en reconstruction de surface 3D, la précision progresse de 25 %, avec production d'images de profondeur réalistes et de maillages surfaciques cohérents physiquement. Ce résultat est significatif pour les équipes travaillant sur la manipulation dextre, un verrou reconnu de la robotique humanoïde et industrielle. Les capteurs tactiles à élastomère (de type GelSight ou DIGIT) génèrent des données de déformation complexes que les pipelines de sim-to-real peinent à exploiter en temps réel : le coût computationnel des méthodes éléments finis (FEM) ou des MPM classiques les rend incompatibles avec les boucles de contrôle rapides ou les phases d'entraînement par reinforcement learning. Un simulateur différentiable 65 % plus rapide et 40 % moins gourmand en mémoire ouvre concrètement la voie à l'intégration du retour tactile dans des politiques VLA (Vision-Language-Action) entraînées à grande échelle, hypothèse jusqu'ici limitée par les coûts de simulation. Le problème de la simulation tactile haute fidélité est actif depuis plusieurs années : TacICP, TacSim et les variantes FEM constituent le socle sur lequel ce travail se positionne. Dans le paysage compétitif, des laboratoires comme MIT CSAIL, CMU et Stanford travaillent sur des capteurs et simulateurs tactiles similaires, tandis que des startups comme Contactile ou Roboskin développent des solutions commerciales. Les auteurs ne mentionnent pas de partenariat industriel ni de déploiement prévu, et l'article reste à ce stade une contribution académique sans validation sur hardware réel annoncée. La prochaine étape naturelle serait une intégration dans un pipeline de manipulation fermée-boucle pour mesurer le gap sim-to-real résiduel.

RecherchePaper
1 source
SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique
244arXiv cs.RO 

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Des chercheurs présentent dans un preprint arXiv (2511.06754v3, troisième révision, mai 2026) SlotVLA, un framework de manipulation robotique multitatches qui repose sur des représentations centrées sur les objets et leurs relations plutôt que sur les plongements denses utilisés par la majorité des modèles VLA actuels. L'architecture combine trois composants : un tokeniseur visuel à slots qui maintient des représentations temporellement cohérentes pour chaque objet détecté dans la scène, un décodeur centré sur les relations entre objets pour produire des embeddings pertinents à la tâche, et un module LLM qui traduit ces embeddings en séquences d'actions exécutables. En parallèle, les auteurs publient LIBERO+, un benchmark de manipulation dérivé du jeu de données LIBERO existant, enrichi d'annotations objet-centriques au niveau des boîtes englobantes et des masques de segmentation, ainsi qu'un suivi temporel des instances entre frames. Les expériences conduites sur LIBERO+ montrent que les représentations à slots réduisent significativement le nombre de tokens visuels nécessaires tout en conservant des performances de généralisation comparables aux baselines denses. L'intérêt principal de cette approche réside dans la tension qu'elle adresse directement : les VLAs déployés à ce jour (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure) s'appuient sur des encodeurs visuels qui traitent la scène comme un champ dense, sans distinction explicite entre objets manipulables et arrière-plan. Cette architecture entraîne une redondance computationnelle et rend difficile l'audit du raisonnement du modèle, ce qui freine l'adoption industrielle dans des contextes certifiables. SlotVLA propose que des représentations structurées, inspirées de la cognition humaine sur les objets discrets, puissent constituer une base plus efficace et interprétable pour le contrôle visuomoteur. La réduction du nombre de tokens visuels est un levier concret de coût d'inférence pour des systèmes embarqués ou des flottes de robots. Il convient toutefois de noter que les résultats présentés restent confinés à l'environnement simulé LIBERO+ : aucune validation physique sur robot réel n'est rapportée dans ce preprint, ce qui laisse ouverte la question du sim-to-real gap pour ce type de représentation. Cette publication s'inscrit dans un courant actif de recherche sur les architectures objet-centriques pour la robotique, dont les travaux fondateurs incluent les modèles de slot attention de Locatello et al. (2020) et les approches OCRL. LIBERO avait déjà été introduit comme benchmark multitatches pour la manipulation, mais sans annotations objet-centriques fines : LIBERO+ vient combler ce manque pour faciliter l'évaluation comparative de ce type de représentation. Sur le plan concurrentiel, les laboratoires académiques (notamment ceux liés à CMU, Berkeley, Stanford) et industriels travaillent en parallèle sur des architectures plus interprétables pour répondre aux demandes croissantes de traçabilité dans l'automatisation industrielle. Les prochaines étapes naturelles seront la validation sim-to-real sur des plateformes physiques standard (Franka, UR, ou humanoïdes) et l'intégration dans des pipelines de fine-tuning avec des modèles fondateurs publics.

RechercheOpinion
1 source
Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte
245Apple Machine Learning 

Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte

Des chercheurs proposent TC-JEPA (Text-Conditional JEPA), une extension de l'architecture I-JEPA développée pour l'apprentissage auto-supervisé des représentations visuelles. Le principe d'I-JEPA repose sur la prédiction de caractéristiques masquées dans l'espace des features : plutôt qu'apprendre à reconstruire des pixels, le modèle prédit des représentations abstraites de régions cachées d'une image. TC-JEPA y ajoute un conditionneur textuel : les légendes associées aux images servent de signal auxiliaire, calculé via une attention croisée sparse sur les tokens textuels, pour guider la prédiction des patches masqués. L'apport central est de réduire l'incertitude inhérente à la prédiction visuelle. Sans texte, plusieurs reconstructions plausibles existent pour une zone masquée, ce qui pousse le modèle à produire des représentations floues ou moyennées. En ancrant la prédiction dans une description textuelle fine, TC-JEPA force l'encodeur visuel à apprendre des features sémantiquement plus riches et précises, avec des retombées potentielles sur la classification, la détection d'objets et la compréhension multimodale. Cette direction s'inscrit dans un mouvement de fond qui cherche à dépasser les limites du contrastif pur (CLIP, ALIGN) en revenant à des architectures prédictives plus proches de la vision de Yann LeCun pour un apprentissage "de type monde". I-JEPA, publié par Meta en 2023, avait déjà montré des gains sur ImageNet sans augmentation agressive. TC-JEPA tente d'en corriger le principal défaut : la supervision visuelle seule reste trop ambiguë pour forcer l'émergence de concepts sémantiques robustes, un problème que le signal textuel vient partiellement résoudre.

RecherchePaper
1 source
OGPO : un affinage complet et efficace des politiques de contrôle génératives
246arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

RechercheOpinion
1 source
Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled
247arXiv cs.RO 

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

Une équipe de chercheurs a publié le 6 mai 2026 sur arXiv (réf. 2605.03637) un framework génératif pour convertir des vidéos de démonstration humaine en séquences d'exécution robotique plausibles, sans données appariées humain-robot. La méthode décompose la vidéo source en deux espaces latents orthogonaux: l'un encodant la tâche accomplie, l'autre la morphologie du corps en mouvement. Un double objectif contrastif impose cette séparation en minimisant l'information mutuelle entre les deux espaces pour garantir leur indépendance, tout en maximisant la cohérence intra-espace pour stabiliser les représentations. Un adaptateur à faible coût paramétrique injecte ces codes latents dans un modèle de diffusion vidéo figé, produisant des démonstrations robotiques morphologiquement précises et cohérentes dans le temps à partir d'une seule séquence humaine. L'enjeu est critique: les approches existantes génèrent des représentations enchevêtrées où l'information de tâche reste couplée à la cinématique humaine spécifique, ce qui bloque le transfert vers d'autres morphologies. En découplant explicitement ces deux dimensions, la méthode ouvre la voie à l'exploitation des vastes corpus de vidéos humaines disponibles sur internet pour entraîner des politiques de manipulation robotique, sans collecte de démonstrations robot coûteuse par télé-opération. Les expériences rapportent des vidéos générées temporellement consistantes et morphologiquement fidèles, bien que l'abstract ne fournisse pas de métriques quantitatives comparatives avec les baselines; les résultats visuels restent la principale validation. Pour un intégrateur ou un décideur industriel, la promesse est de réduire significativement le coût de labeling nécessaire à l'apprentissage de nouveaux comportements de manipulation. Cette publication s'inscrit dans une compétition intense autour des politiques de manipulation généralisables: Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) cherchent tous à réduire la dépendance aux démonstrations robot propriétaires. L'approche par édition vidéo emprunte un chemin différent des VLA classiques: plutôt qu'apprendre une politique directement depuis des vidéos humaines, elle synthétise d'abord une démonstration robot plausible exploitable par les pipelines d'imitation learning standards. Il s'agit à ce stade d'un preprint préliminaire, sans déploiement industriel ni partenariat annoncé. Le cadre latent disentangled proposé pourrait néanmoins rapidement intéresser des acteurs comme 1X Technologies ou Apptronik, et côté européen, des équipes travaillant sur l'imitation learning comme certains labs INRIA ou des spin-offs de manipulation comme Enchanted Tools.

UEDes équipes INRIA et des spin-offs de manipulation comme Enchanted Tools pourraient bénéficier de cette approche pour réduire le coût de collecte de démonstrations robotiques, mais aucun partenariat ou déploiement européen n'est impliqué à ce stade.

RechercheOpinion
1 source
Flots normalisants avec débruitage itératif
248Apple Machine Learning 

Flots normalisants avec débruitage itératif

Des chercheurs ont introduit iTARFlow (iterative TARFlow), une nouvelle architecture de modèle génératif appartenant à la famille des flux normalisants (Normalizing Flows). Contrairement aux modèles de diffusion aujourd'hui dominants, iTARFlow conserve un objectif d'entraînement entièrement basé sur la vraisemblance, calculée de bout en bout sans approximations. Lors de la génération d'images, le modèle combine génération autorégressive et débruitage itératif, une approche hybride inédite pour cette classe de méthodes. Ces travaux s'appuient directement sur TARFlow, un flux normalisant récent qui avait démontré des performances compétitives sur des benchmarks d'images standard. Cette avancée est significative pour un domaine longtemps éclipsé par les modèles de diffusion et les GAN. Les flux normalisants offrent un avantage théorique majeur : la capacité à calculer exactement la probabilité d'une donnée, ce qui les rend précieux pour la détection d'anomalies, la compression et l'évaluation rigoureuse de modèles. En comblant le fossé de performance qui pénalisait ces méthodes, iTARFlow les rend plus compétitifs pour des applications réelles en synthèse d'images. Les flux normalisants avaient suscité un fort intérêt entre 2018 et 2020 avant de perdre du terrain face aux modèles de diffusion. TARFlow avait relancé cette famille en montrant que des architectures transformer autorégressive pouvaient rivaliser avec les approches modernes. iTARFlow prolonge cette dynamique en intégrant le débruitage itératif au processus de génération, une technique empruntée aux modèles de diffusion, tout en préservant les garanties mathématiques propres aux flux normalisants. Cette synthèse pourrait marquer le retour en force d'une approche plus interprétable et rigoureuse dans le paysage de la génération d'images.

RecherchePaper
1 source
De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux
249Apple Machine Learning 

De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux

Des chercheurs ont publié SFI-Bench (Spatial-Functional Intelligence Benchmark), un nouveau cadre d'évaluation conçu pour tester une forme plus avancée d'intelligence spatiale chez les grands modèles de langage multimodaux. Le benchmark comprend plus de 1 700 questions tirées de vidéos égocentrées d'intérieurs domestiques filmées sous différents angles, couvrant des environnements variés du quotidien. Contrairement aux benchmarks existants comme VSI-Bench, SFI-Bench ne se contente pas de demander aux modèles où se trouvent les objets, mais cherche à évaluer s'ils comprennent à quoi ces objets servent dans leur contexte réel. Cette distinction est fondamentale pour le développement d'agents IA capables d'agir dans le monde physique. Un robot ou un assistant visuel qui sait qu'une tasse est posée sur la table, mais ne comprend pas qu'elle sert à boire, sera incapable de planifier des actions cohérentes dans un environnement domestique. SFI-Bench cible précisément ce niveau cognitif supérieur, appelé intelligence fonctionnelle, qui conditionne l'autonomie réelle des agents multimodaux dans des tâches de robotique domestique, d'assistance aux personnes ou de navigation intelligente. La course aux benchmarks spatiaux s'est accélérée ces deux dernières années, à mesure que les modèles comme GPT-4o, Gemini et les LLM open-source progressaient en perception visuelle. Les évaluations géométriques de base ne suffisent plus à différencier les systèmes les plus capables. SFI-Bench s'inscrit dans un effort plus large de la communauté pour définir des critères d'évaluation alignés sur des usages concrets, et pourrait devenir une référence incontournable pour mesurer la maturité des agents embarqués ou des assistants visuels de prochaine génération.

RecherchePaper
1 source
Une méta-analyse sur les effets positifs de ChatGPT dans l’éducation rétractée 1 an après
250Next INpact 

Une méta-analyse sur les effets positifs de ChatGPT dans l’éducation rétractée 1 an après

Une méta-analyse publiée dans la revue Humanities and Social Sciences Communications, éditée par le géant de l'édition scientifique Springer Nature, a été officiellement rétractée le 22 avril 2025, près d'un an après sa parution initiale. Signée par les chercheurs chinois Jin Wang et Wenxiang Fan, l'étude affirmait que l'utilisation de ChatGPT par les élèves avait « un impact positif considérable sur l'amélioration des résultats scolaires ». La note de rétractation, publiée par l'éditeur de la revue, invoque « des incohérences dans la méta-analyse » qui « remettent en cause la validité de l'analyse et les conclusions qui en découlent ». Les auteurs n'ont pas répondu aux communications de la revue à ce sujet. Le problème dépasse largement cette seule étude : selon Google Scholar, la méta-analyse a été citée plus de 500 fois dans des travaux scientifiques, soumis à révision par les pairs ou non. Certains de ces travaux pourraient désormais reposer sur des fondations fragilisées, ce qui impose à leurs auteurs de réévaluer leurs propres conclusions. Un article publié en février 2025 dans Scientific Reports, autre revue de Springer Nature, la citait encore. Cette situation illustre l'effet en cascade qu'une étude défectueuse peut produire dans la littérature académique, surtout lorsqu'elle porte sur un sujet aussi médiatisé que l'IA en éducation. Les signaux d'alerte avaient pourtant émergé rapidement. Dès juillet 2024, des commentaires critiques étaient visibles sur PubPeer, la plateforme collaborative qui permet aux chercheurs de relever des problèmes dans des articles déjà publiés. Des chercheurs norvégiens ont également sonné l'alarme. La revue a donc mis près d'un an à agir, malgré ces avertissements précoces. Ce délai pose des questions sur les processus de contrôle post-publication des grandes revues scientifiques, à l'heure où la recherche sur l'IA génère un volume considérable de publications souvent précipitées. Le cas s'inscrit dans une tendance plus large : face à l'engouement autour de ChatGPT depuis fin 2022, de nombreuses études sur ses usages pédagogiques ont été produites à grande vitesse, parfois au détriment de la rigueur méthodologique. La communauté scientifique devra désormais examiner avec plus de scepticisme les méta-analyses qui concluent à des effets largement positifs des outils d'IA sur l'apprentissage.

UELes travaux scientifiques européens qui citaient cette méta-analyse rétractée devront être réévalués, fragilisant potentiellement des recommandations pédagogiques sur l'usage de l'IA en éducation adoptées dans l'UE.

RecherchePaper
1 source