Aller au contenu principal

Recherche

50 sur 671 articles

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

Les agents IA de codage trouvent le bon fichier mais passent à côté des lignes essentielles, selon une étude
1The Decoder RecherchePaper

Les agents IA de codage trouvent le bon fichier mais passent à côté des lignes essentielles, selon une étude

Les agents de codage dopés à l'intelligence artificielle, comme Claude Code d'Anthropic ou Codex d'OpenAI, souffrent d'un angle mort précis : ils localisent correctement le fichier contenant un bug, mais ratent la majorité des lignes critiques à l'intérieur de ce fichier. C'est ce que révèle SWE-Explore, un nouveau benchmark conçu spécifiquement pour évaluer la phase d'exploration du code, c'est-à-dire la recherche et la navigation dans une base de code, séparément de la phase de correction proprement dite. C'est une première dans l'évaluation des outils de développement automatisé. Ce découplage entre exploration et réparation change la façon d'interpréter les performances des agents de codage. Jusqu'ici, les benchmarks dominants comme SWE-bench mesuraient uniquement le résultat final : le bug est-il corrigé ou non ? SWE-Explore montre qu'un agent peut échouer non pas parce qu'il ne sait pas corriger le code, mais parce qu'il n'a pas identifié les bonnes lignes à modifier. Sans contexte suffisant, même le meilleur algorithme de correction produit un patch inutile. Les développeurs qui s'appuient sur ces outils en production s'exposent donc à des corrections en apparence valides mais ciblant les mauvaises sections. Ce travail s'inscrit dans une dynamique de remise en question des métriques utilisées pour comparer les agents de développement. L'industrie investit massivement dans ces outils, GitHub Copilot, Cursor, Devin, et les entreprises les vendent sur des taux de résolution de tickets. SWE-Explore suggère que ces chiffres masquent une faiblesse structurelle en amont : la compréhension fine d'une base de code existante reste un problème ouvert, et le résoudre conditionne tout le reste.

UELes développeurs français et européens qui s'appuient sur des agents de codage IA en production s'exposent à des corrections en apparence valides mais ciblant les mauvaises sections de code, une limite structurelle à évaluer avant tout usage professionnel critique.

1 source
Un nouveau modèle d'IA baptisé "Count Anything" compte tout ce qu'on lui montre, et c'est plus difficile qu'il n'y paraît
2The Decoder 

Un nouveau modèle d'IA baptisé "Count Anything" compte tout ce qu'on lui montre, et c'est plus difficile qu'il n'y paraît

Un nouveau modèle d'intelligence artificielle baptisé « Count Anything » vient d'être présenté comme le premier système capable de dénombrer des objets dans n'importe quel type d'image, qu'il s'agisse de foules humaines, de cellules observées au microscope ou de tout autre sujet visuel. Son fonctionnement repose sur une simple invite textuelle : l'utilisateur décrit ce qu'il souhaite compter, et le modèle s'exécute. Lors de tests comparatifs, Count Anything divise par deux le taux d'erreur par rapport aux systèmes précédents, ce qui représente un bond significatif en termes de précision. Les applications potentielles couvrent des secteurs très différents. En médecine, compter automatiquement des cellules ou des bactéries sur des échantillons accélère le diagnostic et réduit la charge des techniciens de laboratoire. En gestion des foules, les organisateurs d'événements ou les forces de l'ordre pourraient estimer des effectifs en temps réel à partir d'une simple photo. Tout domaine nécessitant un inventaire visuel rapide, de l'agriculture au contrôle qualité industriel en passant par l'écologie, pourrait bénéficier d'un tel outil universel. Le comptage d'objets en vision par ordinateur est un problème ancien et difficile : les approches traditionnelles nécessitaient des modèles entraînés spécifiquement pour chaque catégorie d'objets. L'ambition de Count Anything est de briser cette fragmentation avec un modèle généraliste piloté par le langage naturel, dans la lignée des grands modèles multimodaux comme GPT-4V ou Gemini. Des limites subsistent néanmoins : le modèle peine encore face à des scènes très denses ou lorsque les termes de la requête restent ambigus, deux points que de futures versions devront améliorer.

💬 Le comptage visuel, c'est le genre de tâche basique que les grands modèles multimodaux gèrent encore mal, et ça bloque des applications médicales ou industrielles pourtant simples à imaginer. Un modèle généraliste piloté par texte qui divise le taux d'erreur par deux, ça mérite mieux qu'un simple communiqué de recherche. J'attends de voir ça tourner sur des images de labo en conditions réelles, pas juste sur des benchmarks.

RecherchePaper
1 source
SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné
3The Decoder 

SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné

Microsoft, en collaboration avec trois universités chinoises, a mis au point SkillOpt, une méthode d'optimisation des documents d'instructions pour agents IA. Le principe est aussi simple qu'inattendu : un fichier Markdown soigneusement entraîné suffit à améliorer les performances de GPT-5.5 d'environ 23 points sur des tâches procédurales. La technique emprunte ses fondements aux méthodes d'entraînement classiques des grands modèles de langage, mais les applique non pas aux poids du réseau, mais au texte des instructions elles-mêmes. L'impact potentiel est considérable pour les développeurs et les entreprises qui déploient des agents IA. Le fichier Markdown optimisé ne se limite pas à GPT-5.5 : il se transfère à d'autres environnements comme Codex et Claude Code sans nécessiter de réentraînement supplémentaire. Cela signifie qu'il est possible d'améliorer substantiellement les capacités d'un agent en modifiant uniquement ses instructions textuelles, sans toucher aux modèles sous-jacents ni engager les coûts élevés d'un fine-tuning. Cette recherche reflète une dynamique croissante dans le domaine : optimiser les agents IA au niveau de leurs instructions plutôt qu'au niveau des paramètres du modèle. À mesure que les agents prolifèrent dans les environnements de développement logiciel et d'automatisation, la question de leur pilotage efficace devient centrale. SkillOpt propose une réponse légère et portable, qui pourrait redéfinir la manière dont les équipes techniques configurent et affinent leurs systèmes d'agents, quelle que soit la plateforme utilisée.

UELes développeurs européens déployant des agents IA peuvent bénéficier de cette méthode sans coût de fine-tuning, mais aucune institution ou réglementation européenne n'est directement impliquée.

💬 +23 points sur des tâches procédurales juste en optimisant un fichier Markdown, c'est le genre de résultat qui te fait relire deux fois. Ce qui m'intéresse vraiment, c'est le transfert : tu entraînes ton fichier d'instructions sur GPT-5.5 et ça marche aussi sur Claude Code sans rien changer. Reste à voir ce que ça donne sur des cas moins balisés que les benchmarks, mais la piste est sérieuse.

RecherchePaper
1 source
Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent
4VentureBeat AI 

Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent

Des chercheurs de Google ont publié un article proposant une approche nouvelle pour lutter contre les hallucinations des grands modèles de langage, baptisée "faithful uncertainty" (incertitude fidèle). La technique, présentée par Gal Yona, chercheur scientifique chez Google et co-auteur de l'étude, repose sur un principe métacognitif : aligner les réponses d'un modèle sur sa confiance interne réelle. Concrètement, plutôt que de forcer le modèle à choisir entre répondre avec assurance ou s'abstenir entièrement, cette approche lui permet d'exprimer des hypothèses nuancées comme "si je ne me trompe pas" ou "je pense que, mais je n'en suis pas certain". Le modèle peut ainsi partager des informations partielles tout en signalant leur degré de fiabilité, y compris dans des systèmes d'IA agentique où des décisions s'enchaînent sans supervision humaine constante. L'enjeu est considérable pour les applications d'entreprise, qui se heurtent à ce que les auteurs appellent le "utility tax", ou coût en utilité. Les stratégies actuelles de réduction des hallucinations imposent un compromis brutal : pour abaisser un taux d'erreur de 25 % à un seuil strict de 5 %, les développeurs doivent sacrifier 52 % des réponses correctes du modèle. En pratique, les équipes techniques refusent ce compromis et configurent leurs systèmes pour maximiser la couverture, ce qui pousse les modèles à continuer de générer des erreurs présentées avec confiance. La redéfinition proposée par Google permet de sortir de cette impasse : une erreur factuelle accompagnée d'une réserve explicite n'est plus une hallucination, c'est une hypothèse. Seule une affirmation incorrecte livrée avec autorité, sans qualification, constitue une véritable hallucination. Cette distinction préserve à la fois la fiabilité et l'utilité du système. Cette recherche s'inscrit dans une prise de conscience plus large des limites structurelles des LLMs. Pendant des années, les progrès en factualité ont surtout reposé sur l'expansion des connaissances : des modèles plus grands, nourris de davantage de données d'entraînement. Mais comme le souligne Yona, "la capacité des modèles est finie, alors que la longue traîne de la connaissance est effectivement infinie." La vraie faiblesse réside dans la conscience des limites, c'est-à-dire la capacité du modèle à distinguer ce qu'il sait de ce qu'il ignore. Dans les applications agentiques, où des systèmes autonomes prennent des décisions en cascade, cette conscience métacognitive devient un mécanisme de contrôle critique : elle permet au modèle de déterminer seul quand son savoir interne est suffisant et quand il doit faire appel à des outils externes ou des API de recherche pour combler ses lacunes.

UELes équipes techniques européennes déployant des LLMs en production pourraient adopter cette approche pour réduire les hallucinations sans sacrifier la couverture des réponses, un enjeu critique pour les applications d'entreprise.

💬 Le chiffre qui tue : pour passer de 25 à 5% d'hallucinations, tu sacrifies 52% des bonnes réponses. Personne ne fait ce compromis, donc les modèles continuent de débiter des erreurs avec assurance. Laisser un LLM dire "je pense que, mais je n'en suis pas certain" plutôt qu'affirmer ou se taire, c'est pas spectaculaire sur le papier, mais si ça tient en prod, ça règle un problème que tout le monde contourne depuis 2 ans.

RecherchePaper
1 source
PixelRAG surpasse les analyseurs de texte en précision et réduit de 10 fois le coût en tokens des agents IA
5VentureBeat AI 

PixelRAG surpasse les analyseurs de texte en précision et réduit de 10 fois le coût en tokens des agents IA

Une équipe de chercheurs des universités UC Berkeley, Princeton et EPFL, en collaboration avec Databricks, a publié cette semaine un article présentant PixelRAG, un système de recherche augmentée par récupération (RAG) qui abandonne complètement l'étape de conversion en texte des pages web. Plutôt que de transformer le HTML en texte brut avant de l'indexer, PixelRAG prend des captures d'écran des pages, découpe ces images en tuiles de 1 024 pixels et les encode directement dans un index vectoriel interrogeable par un modèle de langage à vision. Le système a été testé sur 30 millions de tuiles couvrant l'intégralité des 7 millions d'articles de Wikipédia, et surpasse les pipelines RAG traditionnels sur six benchmarks distincts, avec un gain de précision allant jusqu'à 18,1 % par rapport aux approches textuelles. L'enjeu est considérable pour toutes les entreprises qui déploient des agents IA sur leurs bases documentaires internes ou sur le web ouvert. Les pipelines RAG actuels échouent pour trois raisons mesurables : la conversion HTML détruit 36,6 % des réponses avant même l'indexation, les infoboxes bourrées de mots-clés écrasent les paragraphes pertinents dans 55,2 % des cas, et les 8,2 % restants sont perdus lors de la lecture finale à cause d'une mise en forme aplatie. PixelRAG contourne ces trois problèmes d'un coup en conservant la hiérarchie visuelle, les tableaux, le gras et la mise en page, que les parseurs textuels éliminent irrémédiablement. Le système réduit également les coûts en tokens des agents IA d'un facteur 10, puisque les tuiles images sont bien plus compactes que les longues chaînes de texte nettoyé qu'un parseur produit habituellement. L'architecture repose sur quatre étapes entièrement visuelles : le rendu des pages via Playwright à une largeur fixe de 875 pixels, leur découpage en tuiles stockées localement hors ligne, leur encodage en vecteurs de 2 048 dimensions grâce au modèle Qwen3-VL-Embedding-2B dans un index FAISS d'environ 120 Go, et enfin la lecture par un modèle vision-langage capable d'interpréter simultanément contenu et mise en page. Le choix de cette approche reflète une conviction plus large des auteurs : améliorer les parseurs est une course sans fin, chaque site web exigeant un traitement sur mesure, alors que les modèles de vision récents permettent désormais de traiter directement la page rendue comme le ferait un humain. Yichuan Wang, doctorant à UC Berkeley et auteur principal, résume l'ambition : construire un système de récupération universel, sans ingénierie spécifique par site, en s'appuyant sur les progrès rapides des modèles multimodaux.

UELa participation de l'EPFL à cette recherche représente une contribution européenne ; les entreprises du continent déployant des agents IA sur des bases documentaires pourront bénéficier d'une réduction de coûts en tokens si l'approche est adoptée.

💬 Arrêter d'améliorer les parseurs et passer aux screenshots directement, c'est le genre de pivot qu'on n'ose pas faire parce que ça remet tout en question. Là, Berkeley, Princeton et l'EPFL montrent que ça marche vraiment, avec 18% de gain en précision et un facteur 10 sur les tokens. Reste à voir ce que ça donne à l'échelle d'une base documentaire d'entreprise, mais sur le principe, c'est du solide.

RecherchePaper
1 source
EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots
6arXiv cs.RO 

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

RecherchePaper
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
7arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

RechercheOpinion
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
8arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

RechercheOpinion
1 source
EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
9arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

RechercheOpinion
1 source
SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA
10arXiv cs.RO 

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

RechercheOpinion
1 source
Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot
11arXiv cs.RO 

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

Une équipe de chercheurs a publié le 16 juin 2026 (arXiv:2606.13279) un nouveau cadre VLA pour la manipulation bimanuelles robotique, baptisé "Dual-Level Structural Decomposition". L'architecture repose sur deux modules distincts : un "View-Selective Visual Router" qui pondère dynamiquement la contribution de chaque caméra de poignet selon le contexte de la tâche, et un générateur d'actions basé sur un Mixture-of-Experts (MoE) qui sépare explicitement les trajectoires coordonnées (les deux bras agissent ensemble) des trajectoires indépendantes (chaque bras opère séparément). Évalué sur six tâches bimanuelles simulées dans l'environnement RoboTwin 2.0 et trois tâches longues en conditions réelles, le système affiche un gain de 27,7 % de taux de réussite moyen en simulation et de 43,3 % en déploiement physique par rapport à une baseline VLA monolithique équivalente. Ces résultats interpellent directement les équipes qui développent des politiques de contrôle pour robots humanoïdes ou manipulateurs industriels à deux bras. La progression de 43 % en real-world est significative car elle s'applique à des tâches dites "long-horizon", c'est-à-dire enchaînant plusieurs sous-étapes, là où les VLA monolithiques accumulent les erreurs. Le choix du MoE comme mécanisme de décomposition est notable : plutôt que d'entraîner deux politiques séparées, le modèle apprend à router dynamiquement selon le mode d'interaction détecté, ce qui limite l'explosion du coût d'inférence. Cela valide partiellement l'hypothèse que la structure de l'interaction bimanuele est un biais inductif exploitable -- et que les architectures "tout-en-un" atteignent leurs limites sur ces configurations. Les VLA bimanuelles constituent un chantier actif depuis l'essor des modèles de fondation robotiques en 2024-2025. Des systèmes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ciblent déjà la manipulation généraliste, mais traitent souvent l'entrée visuelle et la génération d'action de façon uniforme. Ce travail s'inscrit dans une tendance plus large vers des architectures modulaires, aux côtés d'initiatives comme RoboTwin 2.0 lui-même, qui sert ici de benchmark standardisé. Les prochaines étapes naturelles seraient un test sur des robots humanoïdes commerciaux (Figure 03, Unitree H1) ou une intégration dans des cellules industrielles bimanuelles -- les auteurs ne mentionnent pas de partenariat industriel ni de timeline de transfert dans la version preprint.

RechercheOpinion
1 source
SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon
12arXiv cs.RO 

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

Des chercheurs ont présenté SERF (Spatiotemporal Environment and Robot Feature Map), une architecture de représentation spatiale et temporelle destinée à améliorer la manipulation mobile sur des horizons longs. Publiée sur arXiv sous l'identifiant 2606.12956, l'approche conditionne une politique de manipulation mobile sur une carte de caractéristiques qui encode simultanément l'environnement et le corps articulé du robot sous forme de points neuronaux dans un espace latent partagé. Cette carte est mise à jour en ligne à partir d'observations égocentriques et de données proprioceptives: les points neuronaux de l'environnement sont actualisés via un suivi rigide au niveau objet, tandis que les points du robot exploitent la cinématique directe. Les tokens extraits de la carte SERF, à plusieurs échelles spatiales et depuis plusieurs cadres de référence, sont injectés comme entrée d'état dans un modèle VLA (vision-language-action), fournissant à la politique un contexte à la fois local et global. L'évaluation est conduite sur BEHAVIOR-1K, un benchmark standard pour la manipulation mobile longue durée en environnements domestiques simulés. L'intérêt de SERF réside dans sa réponse à une limite structurelle des politiques basées uniquement sur l'image: l'incapacité à maintenir une représentation cohérente de l'environnement, de la localisation et de l'avancement de la tâche sur des séquences longues. Les résultats montrent que la politique SERF surpasse les baselines image-only sur BEHAVIOR-1K, atteint les sous-objectifs plus rapidement en empruntant des trajectoires plus directes, se montre plus robuste aux changements de configuration de scène, et parvient à récupérer après un échec de type "object drop" -- capacité critique pour un déploiement industriel. Pour les intégrateurs de systèmes manipulateurs mobiles, la capacité à gérer des perturbations imprévues sans replanning complet représente un gain opérationnel concret, même si les performances sont ici mesurées en simulation. SERF s'inscrit dans un courant de recherche actif qui cherche à doter les modèles VLA d'une mémoire spatiale persistante, en complément de travaux comme GNFactor ou RVT qui exploitent des représentations 3D de la scène. L'approche se distingue en intégrant explicitement la représentation du robot lui-même dans la carte, aux côtés de l'environnement, ce que la plupart des architectures traitent séparément. Dans l'écosystème VLA, où Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA opèrent principalement sur des observations de courte durée, SERF propose une piste pour étendre l'horizon de raisonnement sans augmenter la complexité d'entrée brute. Les prochaines étapes naturelles sont un transfert sim-to-real sur hardware réel et une validation sur des benchmarks en environnement physique, absente à ce stade de l'article.

RechercheOpinion
1 source
GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique
13arXiv cs.RO 

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

Une équipe de chercheurs propose GenHOI (arXiv:2606.12995, juin 2026), un cadre logiciel permettant à des robots humanoïdes d'interagir avec des objets variés en mode zéro-shot, sans entraînement spécifique à la tâche ni données de démonstration physique. Le système prend en entrée une commande en langage naturel et une image du premier plan de la scène robot-objet reconstruite en simulation, à partir desquels un modèle génératif produit une vidéo d'interaction synthétique orientée tâche. Cette vidéo est analysée pour identifier les événements de contact pertinents et estimer les régions de contact main-objet, encodés sous forme de contraintes géométriques centrées sur l'objet. Ces contraintes servent de priors d'optimisation pour raffiner la trajectoire de référence extraite de la vidéo 2D, résolvant l'ambiguïté d'échelle inhérente à la génération vidéo, et adaptent une trajectoire unique à des poses relatives robot-objet non vues à l'entraînement. Un contrôleur de suivi en boucle fermée assure l'exécution finale. Les tâches validées en simulation et en réel incluent la saisie de boîtes, le transport bimanuel asymétrique d'une chaise, le soulèvement d'une table par en-dessous et l'enveloppement d'objets cylindriques. Il s'agit d'un preprint académique, pas d'un produit déployé. L'enjeu central est la rupture avec le paradigme d'entraînement par tâche, principal goulot d'étranglement du déploiement industriel des humanoïdes. Les approches existantes exigent soit des centaines d'heures de collecte de démonstrations physiques par tâche, soit rejouent des trajectoires rigides incapables de s'adapter à des variations de pose ou d'objet. GenHOI contourne ces deux limites en substituant la génération vidéo à la démonstration réelle, tout en maintenant une conscience physique du contact via des contraintes géométriques explicites. La capacité d'adaptation à des configurations inédites robot-objet sans réentraînement est particulièrement significative pour les intégrateurs industriels devant déployer rapidement un humanoïde sur de nouvelles références produit. La problématique de l'interaction humanoïde-objet est activement travaillée par plusieurs acteurs concurrents : Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou Boston Dynamics opèrent dans un espace voisin, mais s'appuient majoritairement sur du fine-tuning tâche par tâche ou du reinforcement learning avec simulateurs massivement parallèles. GenHOI se positionne comme une approche complémentaire, plus légère en données, exploitant la capacité des générateurs vidéo récents à produire des séquences physiquement plausibles. La principale limite non adressée est la robustesse à l'échelle sur des centaines de tâches distinctes et la gestion des objets déformables. Les prochaines étapes naturelles seraient une évaluation sur des plateformes commerciales comme l'Unitree G1 ou l'Agility Digit, et une intégration avec des policies de bas niveau plus génériques.

RechercheOpinion
1 source
MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action
14arXiv cs.RO 

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

Une équipe de chercheurs a soumis sur arXiv (référence 2606.13515) un modèle baptisé MaskWAM, visant à lever deux verrous structurels des World Action Models (WAMs) pour le contrôle robotique par prédiction vidéo. Les WAMs constituent une approche active : au lieu d'apprendre directement une politique motrice, le modèle prédit des frames vidéo futures conditionnées par les actions du robot et extrait la politique de cette représentation. Le problème identifié est double. Les entrées textuelles génèrent une ambiguïté référentielle dans les scènes encombrées : si deux objets similaires cohabitent dans le champ de la caméra, le texte ne suffit pas à désambiguïser la cible. Par ailleurs, les prédictions RGB brutes manquent d'ancrage sémantique et restent perturbées par des arrière-plans sans lien avec la tâche. MaskWAM intègre des masques de segmentation à la fois comme entrées explicites (premier frame annoté avec la cible) et comme sorties prédites, au sein d'une architecture unifiée Mixture of Transformers (MoT). L'apport central est l'introduction d'une supervision sémantique centrée sur l'objet : en forçant le modèle à prédire les masques futurs en parallèle des frames RGB, les auteurs réduisent l'influence du bruit visuel de fond sur la politique apprise. Évalué sur les benchmarks LIBERO et RoboTwin, ainsi que sur des tâches réelles non précisées en détail, MaskWAM surpasse significativement les baselines existantes en conditions de langage clair comme ambigu. Pour les équipes R&D en manipulation robotique, l'enjeu concret est la robustesse des politiques face aux variations de décor et aux instructions imprécises, deux points de friction récurrents dans le transfert du labo vers la ligne de production. Ces résultats restent toutefois ceux d'une prépublication académique sur benchmarks standardisés : aucun déploiement industriel n'est mentionné, et les conditions exactes des expérimentations réelles ne sont pas détaillées dans le résumé disponible. MaskWAM s'inscrit dans la dynamique des Visual Language Action models et des WAMs apparus depuis 2023, notamment Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa spécificité est l'exploitation systématique des masques de segmentation comme signal de supervision, là où la plupart des approches concurrentes restent ancrées sur du texte libre ou des images de référence non structurées. Les prochaines étapes prévisibles pour ce type de travaux sont l'évaluation sur des manipulations multi-objets en environnement non contrôlé et l'intégration dans des fondations robotiques plus larges. Aucun partenariat industriel ni calendrier de transfert applicatif ne sont mentionnés à ce stade.

RechercheOpinion
1 source
NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif
15arXiv cs.RO 

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image. Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large. L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.

RechercheOpinion
1 source
La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision
16VentureBeat AI 

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

Une équipe de chercheurs issue de six institutions américaines, NYU, Columbia, Princeton, l'Université du Maryland, Harvard et le Lawrence Livermore National Laboratory, a publié cette semaine un article présentant les Latent Context Language Models (LCLMs), une nouvelle famille de modèles encodeur-décodeur capables de compresser le contexte d'entrée avant qu'il n'atteigne le décodeur. Résultat : une réduction du contexte jusqu'à 16 fois, avec des sorties générées 8,8 fois plus rapidement que les méthodes actuelles de référence sur le benchmark RULER. À un taux de compression de 4x, la précision atteint 91,76 % contre 94,41 % sans compression, soit moins de 3 points de perte pour diviser la taille du contexte par quatre. À 16x, où 93,75 % des tokens d'entrée sont supprimés, la précision descend à 75,06 %, mais surpasse encore toutes les méthodes de compression KV cache testées au même ratio. L'architecture repose sur un encodeur de 0,6 milliard de paramètres couplé à un décodeur de 4 milliards, entraîné sur plus de 350 milliards de tokens. Les modèles sont disponibles en open source sur HuggingFace. Ce travail s'attaque à un goulot d'étranglement croissant dans les systèmes d'IA en production : plus un agent fonctionne longtemps, plus il accumule de tokens issus de documents récupérés, de traces de raisonnement et d'historique de conversation, et plus la mémoire et le calcul nécessaires explosent. Contrairement aux méthodes de compression KV cache dominantes, qui chargent quand même le cache complet avant d'en supprimer des entrées, les LCLMs compriment la séquence de tokens en amont, ce qui réduit directement la charge côté décodeur. « Notre objectif était d'entraîner des modèles de bout en bout capables de gérer des contextes très longs de manière efficace et précise. Si vous y parvenez, tout devient moins cher et plus rapide », explique Micah Goldblum, co-responsable du projet et chercheur à Columbia. Les gains se confirment aussi sur des entrées courtes : sur GSM8K, un benchmark de problèmes mathématiques, les LCLMs surpassent toutes les autres méthodes testées, quel que soit le taux de compression. La compression de contexte n'est pas un problème nouveau, mais la plupart des solutions existantes souffrent d'un compromis rédhibitoire en production : soit elles dégradent trop la précision, soit les économies de mémoire ne se traduisent pas en gains de vitesse réels dans les infrastructures de déploiement standard. Les LCLMs sont conçus pour s'intégrer directement dans une architecture agentique existante, il suffit de faire passer les documents récupérés par le compresseur avant de les injecter dans le contexte du modèle. L'équipe a également démontré comment construire des agents capables de décompresser sélectivement les passages pertinents, à la manière d'un lecteur qui parcourt rapidement un texte avant de zoomer sur les détails utiles. Avec la montée en puissance des systèmes d'agents longs et des pipelines RAG à grande échelle, ce type de compression en amont pourrait devenir une brique technique incontournable pour maîtriser les coûts d'inférence.

UELes startups et entreprises européennes développant des agents IA ou des pipelines RAG pourraient bénéficier indirectement de cette technique open source pour réduire leurs coûts d'inférence sans impact spécifique à la France ou à l'UE.

💬 Moins de 3 points de précision pour diviser le contexte par 4, c'est le compromis qu'on attendait pour que ça tienne en prod. Ce qui tranche avec les approches KV cache, c'est que la compression se fait en amont du décodeur : les gains se traduisent en vitesse réelle, pas juste en mémoire sur le papier. Si tu fais du RAG ou de l'agentique, ça vaut le détour sur HuggingFace cette semaine.

RecherchePaper
1 source
FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques
17arXiv cs.RO 

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

Des chercheurs ont publié en juin 2026 sur arXiv (2606.12406) deux méthodes complémentaires pour doter les bras robotiques low-cost d'une sensibilité à l'effort sans capteur de force dédié. NEXT (Neural External Torque Estimation) estime les couples externes appliqués aux articulations à partir de données de mouvement libre uniquement : dix minutes de collecte suffisent pour un entraînement d'une minute, avec des performances comparables à celles de capteurs de couples articulaires dédiés. FIRST (Force-Informed Re-Sampling Training) exploite ces estimations pendant le behavior cloning en sur-échantillonnant les phases précédant le contact et les phases de contact elles-mêmes. Sur cinq tâches à horizon long impliquant des manipulations contacts-riches, FIRST dépasse les politiques force-aware antérieures de plus de 17% en progression de tâche. Code et vidéos sont disponibles à jasonjzliu.com/factr2. L'impact principal concerne les intégrateurs opérant sur des bras collaboratifs sans instrumentation force-couple : UR, Franka, Kinova ou Dobot ne sont pas livrés avec des capteurs six axes, dont le coût unitaire dépasse fréquemment 5 000 euros. En éliminant ce prérequis matériel, NEXT rend la télé-opération à retour d'effort et l'apprentissage par démonstration accessibles sur flottilles existantes sans modification mécanique. Le gain de 17% sur des tâches longues comme l'insertion ou l'assemblage est non trivial, même si ces benchmarks en laboratoire restent à valider en conditions industrielles. Ce que cette contribution établit : la perception d'effort peut être inférée par voie logicielle, sans modifier la mécanique du robot. La publication s'inscrit dans la continuité de FACTR (arXiv:2502.02022, 2025, même groupe), qui explorait déjà l'apprentissage de politiques contacts-riches par télé-opération avec retour de force. Le paysage concurrentiel inclut les approches à capteurs tactiles (DIGIT de Meta, GelSight du MIT), les estimateurs de couple par résidus de dynamique utilisés à DLR et Fraunhofer, et les travaux sur la perception haptique chez Physical Intelligence et Figure AI. Les prochaines étapes naturelles seront la validation sur hardware industriel certifié et l'intégration dans des pipelines VLA (Vision-Language-Action), où la perception d'effort reste une lacune connue des politiques déployées à grande échelle.

UELes laboratoires européens (DLR, Fraunhofer) et intégrateurs utilisant des bras Franka Emika (fabricant allemand) peuvent évaluer NEXT/FIRST sur leurs flottes existantes sans investissement matériel supplémentaire, abaissant le coût d'accès à l'apprentissage contacts-riches.

💬 Dix minutes de collecte de données pour remplacer un capteur à 5 000€, c'est là que ça devient vraiment intéressant. Les intégrateurs qui tournent sur du Franka ou du UR sans instrumentation force-couple vont pouvoir tester ça sur leurs flottes sans toucher à la mécanique, et le +17% sur des tâches longues comme l'insertion c'est pas du bruit. Reste à voir si ça tient hors conditions de labo, mais la direction est la bonne.

RecherchePaper
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
18arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

RecherchePaper
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
19arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

RechercheOpinion
1 source
DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?
20arXiv cs.RO 

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

Une équipe de chercheurs a publié en juin 2026 DIRECT (arXiv:2606.12402), un cadre de routage conçu pour allouer dynamiquement le calcul à l'inférence, ce que le milieu appelle test-time compute, dans les agents embarqués pilotés par des modèles de vision-langage (VLMs). Plutôt que d'appliquer uniformément plus de puissance de calcul à chaque requête, DIRECT utilise le contexte visuel et multimodal de la scène pour décider, prompt par prompt, combien de ressources mobiliser. Le système a été évalué sur deux benchmarks de référence, VLABench et RoboMME, puis validé sur un bras Franka physique dans une configuration DROID couvrant manipulation zero-shot et enchaînements de tâches longues. Le résultat clé : DIRECT égale ou dépasse un modèle plus puissant tout en réduisant la latence moyenne jusqu'à 65 %. L'apport scientifique dépasse l'optimisation des coûts. Les auteurs montrent que les trois grands axes de montée en puissance à l'inférence, profondeur de la chaîne de pensée (chain-of-thought), taille du modèle, et longueur de l'historique mémoire, ne sont pas interchangeables : chacun produit des gains qualitativement distincts selon le type de tâche. Cela contredit l'hypothèse implicite de nombreux travaux récents selon laquelle "plus de compute = meilleures performances" de façon uniforme. Pour un intégrateur ou un COO industriel, l'implication est directe : un routeur intelligent peut tenir les contraintes de latence des applications temps réel sans sacrifier les capacités de planification, rendant les VLMs plausibles hors des environnements lab. Ce travail s'inscrit dans une accélération marquée de l'usage des VLMs comme planificateurs de haut niveau pour la robotique, portée notamment par des modèles comme GPT-4o, Gemini 2.0 ou les architectures Vision-Language-Action (VLA) type pi0 de Physical Intelligence. Le setup DROID utilisé pour la validation physique est un environnement de manipulation à grande échelle devenu standard dans la recherche académique américaine. Côté concurrence, les approches alternatives, décodage spéculatif, distillation, sélection statique de modèle, n'exploitent pas le contexte de scène pour router dynamiquement. DIRECT ouvre la voie à des pipelines adaptatifs, mais reste à ce stade une contribution de recherche : aucun déploiement industriel ni partenariat industriel n'est annoncé.

RechercheOpinion
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
21arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

RechercheOpinion
1 source
UniIntervene : intervention à base d'agents pour un apprentissage par renforcement efficace en conditions réelles
22arXiv cs.RO 

UniIntervene : intervention à base d'agents pour un apprentissage par renforcement efficace en conditions réelles

UniIntervene est un modèle d'intervention autonome présenté dans un preprint arXiv (2606.12372, juin 2026) qui cible un goulot d'étranglement concret de l'apprentissage par renforcement en boucle humaine (HiL-RL) pour la manipulation robotique réelle. Le système combine trois composants : un estimateur de valeur d'action conditionné sur le futur, qui prédit les conséquences latentes d'une action et évalue leur valeur avant exécution ; un critique temporel de risque de valeur (temporal value-risk critic), qui agrège la dynamique récente des signaux de valeur et déclenche une intervention dès qu'une stagnation ou dégradation soutenue est détectée ; et une politique de récupération conditionnée sur un objectif, qui extrait une cible de haute valeur depuis une mémoire d'épisodes d'intervention passés et génère des actions correctives exécutables. Sur des tâches de manipulation en conditions réelles, UniIntervene améliore le taux de succès moyen de 8,6 points de pourcentage tout en réduisant les interventions humaines de 57 % par rapport aux baselines HiL-RL de l'état de l'art. L'enjeu industriel est direct : le HiL-RL est l'une des approches les plus prometteuses pour déployer des bras manipulateurs apprenants hors du laboratoire, mais son coût opérateur reste prohibitif à l'échelle. Chaque correction humaine représente du temps d'ingénieur ou de technicien immobilisé devant le robot. En délégant la majorité des interventions à un agent autonome -- tout en conservant la supervision humaine pour les cas limites -- UniIntervene ouvre un chemin vers un fine-tuning continu en production sans équipe dédiée. La réduction de 57 % est notable, mais les auteurs ne précisent pas la nature exacte des tâches testées ni si les vidéos publiées sont représentatives de l'ensemble du benchmark ; prudence donc sur la généralisabilité immédiate. Le HiL-RL pour la robotique réelle a connu une accélération depuis les travaux de DAgger (Ross et al., 2011) et leurs dérivés, avec des systèmes récents comme RLIF et IWR qui ont montré que l'intervention humaine ponctuelle surpasse le RL pur en environnements non structurés. UniIntervene s'inscrit dans cette lignée mais déplace le curseur : là où IWR demande à l'humain de décider quand intervenir, ici c'est le modèle lui-même qui prend cette décision via son critic temporel. Les concurrents directs incluent les approches de HITL proposées par des équipes de Chelsea Finn (Stanford) et Pieter Abbeel (UC Berkeley / Covariant). Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans le preprint ; il s'agit pour l'instant d'une contribution de recherche sans pilote annoncé.

RecherchePaper
1 source
Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention
23arXiv cs.RO 

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques. Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine. Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

RechercheOpinion
1 source
Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde
24arXiv cs.RO 

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

Une équipe de chercheurs a publié sur arXiv (2606.12217) une analyse d'une limitation fondamentale des World Action Models (WAMs), architecture émergente pour la manipulation robotique. Les WAMs combinent un modèle de génération vidéo, chargé de prédire l'évolution future de la scène, avec un décodeur d'actions qui traduit ces prédictions en commandes motrices. Les auteurs constatent empiriquement qu'un modèle produisant des séquences visuelles plausibles ne génère pas nécessairement des actions précises. Par des analyses d'attention sur la tête d'action et des interventions causales, ils identifient un "mismatch" de représentations : les états cachés du modèle de diffusion vidéo sont optimisés pour la reconstruction visuelle, pas pour le contrôle moteur à bas niveau. Le décodeur d'actions peine à se focaliser sur les zones d'interaction pertinentes et reste sensible aux perturbations dans les régions non pertinentes de la scène. En réponse, les auteurs proposent AGRA (Action-Grounded Representation Alignment), un objectif de régularisation qui aligne les features intermédiaires de la diffusion vidéo avec des représentations sémantiques spatialement cohérentes issues d'un encodeur visuel de fondation. Les tests sur des tâches de manipulation réelles montrent une meilleure localisation d'objets, une compréhension accrue des affordances, et une robustesse améliorée face aux perturbations hors distribution. Ce résultat pointe un problème structurel rarement formalisé dans la littérature WAM : le gradient d'entraînement de la génération vidéo ne suffit pas à organiser les représentations internes de façon utile pour le contrôle moteur. C'est une distinction critique pour les équipes R&D investissant dans les architectures VLA (Vision-Language-Action) ou world-model-based, car posséder un bon simulateur interne ne garantit pas une bonne politique. AGRA démontre qu'un alignement explicite entre features du monde et sémantique spatiale améliore simultanément les performances en distribution et la généralisation hors distribution, un double bénéfice difficile à obtenir et précieux pour les déploiements industriels où les variations d'environnement sont inévitables. Les WAMs s'inscrivent dans une lignée de recherches incluant Dreamer (DeepMind) et les architectures world-model appliquées à la navigation et la manipulation. AGRA se distingue en ajoutant un objectif de régularisation à l'interface monde-action sans modifier l'architecture de base, ce qui le rend potentiellement applicable à d'autres variantes de WAMs. Dans l'espace de la manipulation robotique, les approches concurrentes comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA contournent le problème en n'utilisant pas de génération vidéo explicite, ce qui place AGRA comme une réponse directe aux faiblesses spécifiques des architectures à modèle du monde. Il s'agit à ce stade d'une contribution académique arXiv sans déploiement industriel ni code public annoncé.

RechercheOpinion
1 source
LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines
25arXiv cs.RO 

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

Des chercheurs ont publié LUCID (arXiv:2606.11628, juin 2026), un framework en deux étapes qui apprend des compétences de manipulation dextère à partir de vidéos humaines non étiquetées issues d'internet, sans démonstrations robotiques coûteuses. LUCID découple l'apprentissage en un modèle d'intention, qui prédit à court horizon ce qui doit se passer ensuite dans la scène en boucle fermée, et une politique sensorimorale spécifique à chaque effecteur, chargée de convertir cette intention en actions concrètes. Ce découplage permet au même modèle d'intention d'opérer sur des effecteurs différents, de la main dextère multi-doigts au préhenseur parallèle à deux mâchoires, sans réentraînement. Le système a été validé sur cinq tâches réelles : mélange, essuyage et tri en bac, supervisés par des vidéos internet uniquement avec transfert zéro-shot vers de nouveaux objets et scènes, et push-T et routage de câbles, supervisés chacun par une heure de vidéo smartphone collectée par les auteurs. Ce résultat s'attaque au principal goulot d'étranglement du robot learning industriel : la dépendance à des démonstrations coûteuses et liées à un embodiment précis. Les pipelines actuels, qu'ils reposent sur la télé-opération (Figure AI, 1X), l'imitation structurée (ACT, Diffusion Policy) ou les VLA end-to-end, exigent tous des données robotiques spécifiques à l'effecteur. LUCID substitue à cela des vidéos humaines à l'échelle web pour la compréhension de tâche, et de la simulation massivement parallèle pour le contrôle moteur. Si le paradigme passe à l'échelle, il réduit significativement les coûts d'intégration pour chaque nouvel effecteur, argument directement adressé aux intégrateurs industriels qui gèrent des parcs de bras multi-marques. LUCID se positionne face à pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui privilégient des architectures end-to-end. La principale différenciation est l'interface d'intention agnostique à l'embodiment, apprise depuis des données internet non étiquetées, ce qui constitue une direction distincte de la course à la collecte massive de démonstrations robotiques. Le preprint ne mentionne ni partenaire industriel ni feuille de route commerciale ; les résultats restent en environnement laboratoire sur des tâches de complexité modérée, et le passage à des contextes industriels non contraints reste à démontrer.

RechercheOpinion
1 source
iPack : rangement intuitif dans des bacs grâce aux grands modèles de langage
26arXiv cs.RO 

iPack : rangement intuitif dans des bacs grâce aux grands modèles de langage

Une équipe de chercheurs a publié sur arXiv (papier 2503.08445v2, mars 2025) un travail intitulé iPack, dont le coeur est un système baptisé LLM-Pack, conçu pour automatiser la séquence d'emballage de produits alimentaires. Le principe repose sur la combinaison d'un modèle de langage (LLM) et d'un modèle de vision (VLM) : l'IA identifie visuellement les articles présents dans un panier, puis génère un ordre d'emballage qui reproduit la logique humaine intuitive, en plaçant les produits lourds en premier et les fragiles au-dessus. Le système fonctionne sans entraînement dédié sur de nouveaux articles, son architecture modulaire permettant de substituer les modèles fondamentaux sous-jacents sans modifier le reste du pipeline. Le code source sera rendu public à la publication définitive. Ce travail comble un angle mort notable de la robotique logistique. Le problème du "bin picking" (saisir un objet dans un bac) est intensément étudié depuis des années, mais l'ordre d'emballage séquentiel des courses, pour éviter d'écraser une baguette ou un produit fragile, est resté quasi inexploré. L'approche zero-shot est le point différenciant : elle offre une généralisation immédiate à la variété extrême des SKU en grande distribution, là où les systèmes classiques exigent des catalogues annotés et des cycles de réentraînement. Si les performances se confirment hors conditions de laboratoire, cela représente une brique concrète pour des systèmes de caisse automatisée avec emballage intégré, avec un intérêt direct pour les intégrateurs retail et les enseignes pilotant des projets d'automatisation. La grande distribution automatise en ordre dispersé : les supermarchés sans caissier comme Amazon Fresh ou Auchan Go existent, mais le geste d'emballage reste systématiquement manuel. LLM-Pack se positionne comme la brique manquante entre la détection d'articles et la manipulation robotique. Les concurrents commerciaux directs, tels que Focal Systems ou Mashgin côté vision de caisse, n'ont pas publié d'approche comparable sur le séquençage d'emballage. Il reste cependant à souligner que ce travail est un preprint sans validation industrielle ni déploiement annoncé : les évaluations présentées sont réalisées en environnement contrôlé, et la robustesse sur la variabilité réelle d'un point de vente, avec des milliers de références différentes, reste entièrement à démontrer.

UELes enseignes françaises comme Auchan Go, déjà engagées dans l'automatisation des caisses, pourraient bénéficier de cette brique technologique si elle est validée à l'échelle industrielle.

RecherchePaper
1 source
VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte
27arXiv cs.RO 

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Une équipe de chercheurs publie sur arXiv (juin 2026, ref. 2606.12028) VICX, un framework de manipulation robotique généraliste articulé autour d'une architecture découplée en deux blocs : un modèle de génération vidéo figé (non fine-tuné) produit des plans visuels de haut niveau conditionnés par langage naturel, tandis qu'un réseau baptisé V2T-ICON (Video-to-Trajectory In-Context Operator Network) traduit ces plans en trajectoires exécutables pour le robot. La particularité de V2T-ICON réside dans son fonctionnement par apprentissage en contexte : au moment de l'inférence, il récupère des paires image-état préenregistrées et travaille sur des images segmentées du seul bras robotique, permettant un mapping visuel-vers-état sans mise à jour des paramètres. Les expériences sont conduites sur Meta-World, un benchmark de simulation standard, et démontrent la généralisation inter-tâches, la correction en boucle fermée, et le transfert inter-corps (cross-embodiment). L'intérêt de cette approche pour les équipes de R&D réside dans sa modularité : en découplant planification visuelle et exécution motrice, VICX permet théoriquement de substituer l'un des deux blocs de façon indépendante, réduisant le coût d'adaptation à de nouvelles tâches sans réentraînement complet. Le mécanisme d'in-context learning évite de paramétrer le réseau pour chaque tâche inédite, ce qui est pertinent pour des environnements industriels changeants. Cela dit, les résultats restent cantonnés à Meta-World, un environnement de simulation simplifié : aucune validation sur robot physique n'est publiée dans ce preprint, une limite structurelle dans un domaine où le sim-to-real gap demeure l'obstacle central non résolu. VICX s'inscrit dans la vague des Visual Language Action models (VLA) cherchant à dépasser l'imitation learning classique via des représentations visuelles génératives. Les approches concurrentes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA adoptent des architectures majoritairement end-to-end et ont déjà fait l'objet de déploiements ou démonstrations sur hardware réel, ce qui les positionne en avance sur l'applicabilité industrielle à court terme. VICX constitue une contribution méthodologique solide sur la question de la généralisation, mais son chemin vers un déploiement concret reste entièrement à démontrer.

RechercheOpinion
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
28arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

RechercheOpinion
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
29arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

RechercheOpinion
1 source
VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action
30arXiv cs.RO 

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

Un préprint déposé sur arXiv le 10 juin 2026 (identifiant 2606.10568) présente VeriSpace, un vérificateur d'actions tridimensionnel conçu pour renforcer la fiabilité des modèles VLA (Vision-Language-Action) en robotique de manipulation. Ces modèles interprètent une scène visuelle et un objectif en langage naturel pour générer des commandes motrices, mais souffrent d'une limite structurelle : la prédiction se fait en un seul coup, sans réévaluation avant exécution. La moindre imprécision sur la position de préhension peut provoquer un échec de saisie, une collision ou une progression erronée dans la tâche. VeriSpace propose une vérification au moment du test (test-time verification) : le système génère plusieurs actions candidates que le vérificateur évalue avant d'en sélectionner une pour exécution. Il s'appuie sur deux composants : un encodage de scène à double chemin intégrant la géométrie 3D explicite (Dual-Path 3D-Injected Scene Encoding), et un raisonnement spatial sur les relations géométriques, la validité de chaque action et sa progression attendue vers l'objectif. Les expériences couvrent des benchmarks publics et des tâches de manipulation réelles, avec des gains rapportés en distribution et hors distribution, bien que les valeurs précises ne figurent pas dans le résumé du preprint. Cette approche répond à une fragilité bien documentée : les VLA, malgré les progrès de modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), restent vulnérables dès que la scène présente une ambiguïté géométrique subtile. La vérification au test-time n'est pas une idée nouvelle, mais VeriSpace la rend opérationnelle sur des scènes 3D réelles, là où les approches précédentes peinent à distinguer des actions candidates géométriquement proches aux conséquences pourtant très différentes. Son mode d'intégration plug-in, compatible avec les politiques VLA existantes sans modification, facilite l'adoption dans des pipelines déjà déployés. Pour les équipes robotique industrielle, c'est un mécanisme potentiellement utile pour réduire les taux d'échec sans requalifier les modèles sous-jacents. Le contexte est celui d'une compétition intense autour de la robustesse des VLA. Physical Intelligence, Google DeepMind (RT-2), NVIDIA et plusieurs équipes académiques de Berkeley, Stanford et CMU investissent massivement dans la généralisation et la réduction du sim-to-real gap. La vérification d'actions au test-time est une direction en émergence, distincte du fine-tuning continu ou de l'augmentation de données d'entraînement. VeriSpace reste pour l'instant au stade de préprint académique, sans annonce de déploiement industriel ni partenariat commercial associé. Les prochaines étapes naturelles seraient une évaluation chiffrée sur des benchmarks standardisés comme RoboSuite ou Open X-Embodiment, et une intégration dans des pipelines open-source pour validation par la communauté.

RechercheOpinion
1 source
SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique
31arXiv cs.RO 

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

RechercheOpinion
1 source
Robustesse des tâches par ré-étiquetage des données vision-action pour robots
32arXiv cs.RO 

Robustesse des tâches par ré-étiquetage des données vision-action pour robots

Une équipe de chercheurs a publié TREAD (Task Robustness via Re-Labelling Vision-Action Robot Data), un framework de ré-annotation automatique des datasets de robotique présenté sur arXiv (arXiv:2606.10918, juin 2026). L'approche exploite un grand modèle vision-langage (VLM) pré-entraîné en trois étapes séquentielles : génération de sous-tâches sémantiques à partir des labels d'instruction originaux et des scènes initiales, segmentation des vidéos de démonstration conditionnée sur ces sous-tâches, puis production d'instructions textuelles diversifiées intégrant les propriétés des objets manipulés. Le résultat : des démonstrations longues décomposées en paires langage-action ancrées dans la scène, enrichies de reformulations linguistiques variées du même objectif. Les évaluations sur le benchmark LIBERO montrent une amélioration des performances sur des tâches et objectifs non vus à l'entraînement, sans collecte de données supplémentaire. Ce travail cible un goulot d'étranglement bien identifié dans la course aux politiques de manipulation généralistes : les datasets de robotique existants manquent de diversité linguistique et de variété dans les séquences d'action, ce qui fait que les politiques de type VLA (Vision-Language-Action) peinent à suivre des instructions paraphrasées ou décomposées différemment. TREAD contourne ce problème en réutilisant la connaissance transférable des VLMs pour synthétiser de la diversité là où la collecte terrain serait coûteuse. L'approche améliore simultanément la généralisation de planification via la décomposition de trajectoires et la généralisation des politiques conditionnées au langage via la diversité des formulations, deux axes que les approches de scaling pur (plus de données, plus de paramètres) n'adressent pas directement. Le contexte est celui de la montée en puissance des politiques généralistes pour la manipulation robotique, incarnée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Ces architectures héritent des faiblesses de leurs datasets d'entraînement, souvent collectés avec des instructions standardisées et des démonstrations d'une seule séquence. TREAD s'inscrit dans une tendance émergente de data augmentation sémantique, en complémentarité avec les approches de génération synthétique par simulation (sim-to-real) ou de téléopération à grande échelle. LIBERO, le benchmark utilisé pour validation, est largement adopté dans la communauté pour comparer les politiques de manipulation en environnement tabletop. Les prochaines étapes naturelles seraient la validation sur des datasets plus larges comme Open X-Embodiment et des tests en déploiement réel sur plateformes commerciales.

RechercheOpinion
1 source
SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel
33Le Big Data 

SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel

Une équipe de chercheurs des universités Jiao Tong de Shanghai et du Centre-Sud, en partenariat avec le fabricant de smartphones OPPO, a publié en mai 2026 les travaux fondateurs du framework SkillMAS, un nouveau système d'orchestration d'agents d'intelligence artificielle. L'architecture, entièrement non paramétrique, ne modifie pas les poids des modèles de langage sous-jacents : elle fonctionne comme une couche logicielle supérieure qui permet à des équipes d'agents autonomes de réorganiser leurs rôles et de réécrire leurs outils en temps réel, sans aucune reprogrammation manuelle. Le mécanisme central repose sur une coévolution synchronisée à deux échelles : une échelle micro, qui gère les compétences techniques de chaque agent individuel, et une échelle macro, qui supervise l'organigramme collectif et redistribue les responsabilités au sein de l'équipe. Les deux niveaux s'influencent mutuellement en continu, ce qui confère au système une plasticité jusqu'ici absente des architectures classiques. Ce niveau d'adaptabilité répond à une limite structurelle des systèmes multi-agents actuels : leurs rôles et leurs outils sont figés par les développeurs au moment de la conception. Face à l'imprévu, ces architectures rigides entrent en boucles d'erreurs, consomment des quantités massives de tokens et nécessitent une supervision humaine constante, ce qui cantonne la technologie à des tâches bien balisées. SkillMAS brise ce plafond en permettant au système de s'adapter dynamiquement aux tâches complexes, réduisant à la fois les coûts opérationnels et la dépendance au pilotage humain. Pour OPPO, l'enjeu est directement industriel : cette architecture ouvre la voie à des assistants virtuels capables de gérer des situations inédites sans intervention extérieure, un saut qualitatif significatif pour les appareils grand public. Entre 2023 et 2025, la recherche en systèmes multi-agents avançait sur deux fronts séparés : des projets comme Voyager (Microsoft Research, 2023) exploraient la capacité des agents à créer leurs propres outils, tandis que des frameworks comme MetaGPT se concentraient sur la coordination collective. Aucun système ne fusionnait réellement ces deux dimensions. SkillMAS représente cette convergence, en unifiant apprentissage automatique et systèmes distribués dans une architecture unique. La validation en laboratoire démontre sa supériorité face aux standards actuels, et l'implication directe d'un acteur industriel comme OPPO suggère un passage prochain vers des applications commerciales. La prochaine étape sera de confirmer ces performances dans des environnements réels, hors conditions de laboratoire, où la robustesse des systèmes adaptatifs sera véritablement mise à l'épreuve.

UERecherche publiée par des universités chinoises en partenariat avec OPPO, sans impact immédiat sur la France/UE, mais susceptible d'influencer les architectures multi-agents à moyen terme.

RecherchePaper
1 source
Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche
34MarkTechPost 

Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche

Une étude conjointe de Harvard et de Perplexity publiée en juin 2026 apporte les premières preuves empiriques à grande échelle sur ce que les agents d'intelligence artificielle font réellement dans le cadre du travail intellectuel. Les chercheurs ont analysé 90 jours de données de production, du 27 février au 27 mai 2026, en comparant deux produits Perplexity utilisés par les mêmes personnes : Search, un moteur de réponse conversationnel, et Computer, un agent capable de planifier et d'exécuter des tâches de bout en bout. À partir de 10 000 paires de sessions quasi-identiques, définies par une similarité cosinus supérieure à 0,99, ils ont mesuré ce que chaque mode accomplit concrètement. Le résultat le plus saillant : Computer effectue en moyenne 26 minutes de travail machine autonome par session, contre 33 secondes pour Search, soit un écart de 48 fois. En médiane, l'écart reste net : 9 minutes contre 14 secondes. Sur certains domaines locaux, le ratio atteint 75 fois. L'impact sur la productivité est considérable. En reconstituant un scénario de référence "humain avec Search", les chercheurs estiment qu'un professionnel aurait besoin de 269 minutes pour accomplir la même tâche qu'un agent en 36 minutes, soit 87 % de temps en moins et 94 % de coût total réduit. Ces économies de coût dépassent les économies de temps parce que les salaires amplificateurs du domaine entrent en ligne de compte. Le coût modèle de Computer s'élève à 4 à 10 dollars par tâche, contre environ 0,05 dollar pour Search, mais son coût marginal par étape est de 0,16 dollar contre 2,05 dollars pour l'humain seul. La satisfaction est également au rendez-vous : le taux d'insatisfaction mesurable après une session Computer est de 1,3 %, contre 2,9 % pour Search, une réduction de 55 %. Loin de remplacer la recherche traditionnelle, l'agent la stimule : adopter Computer a augmenté de 1,05 le nombre de requêtes Search quotidiennes des utilisateurs, signe d'une complémentarité plutôt que d'une substitution. Cette étude s'inscrit dans un débat plus large sur la véritable nature de la transformation que les agents IA font subir au travail. Les chercheurs montrent que l'autonomie ne se limite pas à accélérer des tâches existantes : elle change lesquelles sont tentées. Les sessions Computer franchissent plus souvent les frontières entre métiers, avec 59 % de requêtes inter-occupations contre 50 % pour Search. Perplexity Computer a été lancé deux jours avant l'ouverture de la fenêtre d'observation, et ses volumes ont déjà atteint 84 fois leur niveau de la première semaine. Des entretiens utilisateurs rapportent des gains allant de 5 à 300 fois, corroborés par une évaluation indépendante par LLM qui retrouve 84 % de gain de temps et 93 % de gain de coût. Ces chiffres posent une question structurante pour les entreprises : le point de rupture économique se situe à moins de 20 minutes de travail manuel, en dessous duquel l'humain seul reste compétitif.

UELes entreprises européennes disposent d'un premier benchmark empirique pour calibrer leur adoption des agents IA, avec un point de rupture économique identifié à moins de 20 minutes de travail manuel.

RecherchePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
35arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

RecherchePaper
1 source
Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)
36arXiv cs.RO 

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié début juin 2026 (arXiv:2606.09749) une méthode de filtrage de sécurité sans entraînement pour les modèles VLA (Vision-Language-Action) en manipulation robotique. La technique repose sur une découverte clé : un petit nombre de têtes d'attention internes au modèle localise de manière fiable l'objet que la politique de contrôle cherche à atteindre. Ces têtes sont exploitées à chaque pas de contrôle pour identifier la cible active, traiter le reste de la scène comme obstacles, et alimenter un filtre CBF (Control Barrier Function) garantissant l'évitement de collisions. Couplée à un tracker léger en temps réel, l'approche gère également les obstacles mobiles. Sur le benchmark SafeLIBERO étendu aux scénarios dynamiques, la méthode surpasse de 43 % en moyenne une baseline oracle disposant de l'état complet du simulateur. L'enjeu est concret pour les intégrateurs de systèmes robotiques déployant des VLA en environnement non contrôlé. Les filtres de sécurité existants interrogent un VLM pour identifier les obstacles, un processus trop lent pour la boucle de contrôle, limité à une initialisation en début d'épisode et incapable de traquer des obstacles en mouvement. L'approche proposée contourne ce goulot en réutilisant les signaux perceptuels déjà présents dans le modèle, sans latence supplémentaire significative. Concrètement, un VLA déjà déployé comme Pi-0, OpenVLA ou RoboFlamingo pourrait être doté d'un filtre de sécurité dynamique sans re-fine-tuning ni surcoût matériel, réduisant le demo-to-reality gap sur les lignes de production avec opérateurs humains à proximité. Ce travail s'inscrit dans la dynamique des VLA depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA, Pi-0 (Physical Intelligence) et d'autres architectures fondées sur des modèles de langage. La sécurité et la garantie de comportement sont restées en retrait face à la course aux performances end-to-end, mais deviennent critiques pour les déploiements industriels réels, notamment en Europe où la réglementation sur les systèmes autonomes se renforce. La méthode CBF est mathématiquement établie en théorie du contrôle ; son intégration sans entraînement dans des pipelines VLA existants constitue un résultat notable. Limite à signaler : les évaluations restent pour l'instant en environnement simulé, et l'extension à des scènes avec occlusions partielles ou robots multiples reste à démontrer.

UELa méthode pourrait accélérer la certification de VLA en environnements industriels européens soumis à la réglementation sur les systèmes autonomes (AI Act), en fournissant un mécanisme de sécurité formellement vérifiable sans surcoût matériel.

RechercheOpinion
1 source
Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données
37arXiv cs.RO 

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

Des chercheurs ont publié sur arXiv (2510.01661, version 3) SymSkill, un framework d'apprentissage robotique pour la manipulation séquentielle en environnements dynamiques. Le système apprend conjointement trois composantes à partir de démonstrations brutes, non étiquetées et non segmentées : des prédicats symboliques (conditions logiques décrivant l'état du monde), des opérateurs (représentations abstraites des actions), et des compétences motrices orientées vers des objectifs. En simulation RoboCasa, SymSkill réussit 12 tâches à étape unique avec un taux de 85 %, puis les compose en plans multi-étapes sans données supplémentaires. Sur un robot réel Franka, le système apprend à partir de cinq minutes de données de jeu libre et exécute des tâches à 12 étapes à partir de spécifications symboliques d'objectifs. La récupération en cas d'échec opère en temps réel, tant au niveau moteur que symbolique, via un contrôleur conforme permettant l'exécution sécurisée sous perturbations humaines ou environnementales. L'intérêt de SymSkill tient à sa résolution d'une tension fondamentale en robotique industrielle : l'apprentissage par imitation (IL) est réactif mais ne généralise pas à des scènes inédites, tandis que la planification tâche-et-mouvement (TAMP) est compositionnelle mais trop lente pour la récupération en temps réel. SymSkill combine les deux en un seul cadre unifié : le planificateur symbolique réordonne dynamiquement les compétences selon l'état courant, sans nécessiter de réentraînement. Pour un intégrateur, cinq minutes de données suffire à couvrir une séquence de 12 étapes représente un gain de coût de labellisation considérable par rapport aux pipelines d'imitation classiques. Les résultats questionnent aussi l'hypothèse selon laquelle les modèles VLA (vision-langage-action) monolithiques suffisent pour la manipulation longue-horizon : la décomposition symbolique explicite offre ici une robustesse mesurable. L'approche s'inscrit dans un débat de fond entre architectures neuronales end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les approches hybrides neuro-symboliques. SymSkill représente ce second camp, qui revendique meilleure interprétabilité et récupération d'échec structurée. Aucun déploiement industriel ni partenariat commercial n'est annoncé ; il s'agit d'un résultat de recherche académique avec code disponible sur symskill.github.io, et les performances en simulation restent à valider sur des tâches industrielles à plus haute variabilité. La prochaine étape naturelle serait de tester la scalabilité sur des horizons supérieurs à 12 étapes et des environnements moins contrôlés.

RecherchePaper
1 source
C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences
38arXiv cs.RO 

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Des chercheurs ont publié sur arXiv en juin 2026 (référence 2606.08962) une méthode d'accélération appelée C³ache (Cross Inference Chunk Cache), ciblant les World Action Models (WAM), une classe de modèles robotiques qui génèrent des politiques d'action en modélisant la vidéo plutôt qu'en s'appuyant uniquement sur des démonstrations étiquetées. Contrairement aux politiques VLA (Vision-Language-Action) classiques, les WAM s'entraînent sur de la vidéo non labellisée abondante, ce qui améliore leur généralisation à de nouveaux mouvements et environnements, mais au prix d'un coût d'inférence élevé. Pour exécuter une tâche, un WAM enchaîne plusieurs blocs d'inférence successifs (chunks), chacun nécessitant un processus de débruitage coûteux. Les méthodes existantes réduisent ce coût en mettant en cache les calculs au sein d'un même chunk, mais ignorent une source de redondance plus large : la forte corrélation entre les résidus calculés à un même step de débruitage, d'un chunk au suivant, lorsque le robot exécute un comportement fluide. C³ache exploite cette corrélation en réutilisant ces résidus entre chunks consécutifs, sans aucun réentraînement du modèle. Les expériences sur benchmarks avec un backbone Fast-WAM montrent un gain allant jusqu'à 2,5× sur le temps d'inférence total mesuré en wall-clock, avec une dégradation négligeable du taux de succès aux tâches. Ce résultat a une portée concrète pour les équipes cherchant à déployer des robots autonomes à coût raisonnable. Le principal frein à l'adoption industrielle des WAM n'est pas la qualité des politiques générées, mais leur latence d'inférence : réduire ce coût par 2,5× sans modifier les poids du modèle constitue un levier de déploiement immédiat, sans pipeline de réentraînement ni risque de régression. La méthode valide aussi une hypothèse structurelle utile : les trajectoires robotiques lisses produisent des représentations internes stables d'un pas à l'autre, ce qui ouvre la voie à des stratégies de cache plus agressives au niveau système. Pour les intégrateurs et les équipes MLOps, C³ache se présente comme un composant directement intégrable à tout modèle WAM existant. Les WAM s'inscrivent dans une tendance initiée par des modèles comme pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui exploitent tous deux un objectif de génération vidéo pour apprendre à partir de données non étiquetées. La course à la réduction des coûts d'inférence pour ces architectures est intense : Google, Physical Intelligence et plusieurs laboratoires académiques explorent en parallèle la distillation, la quantification et le cache intra-chunk. C³ache se positionne comme une solution orthogonale et combinable avec ces approches. Les auteurs soulignent toutefois une limite importante : la corrélation inter-chunks supposée ne tient que pour des comportements robotiques fluides, et des mouvements brusques ou des transitions rapides pourraient dégrader les performances. Il s'agit pour l'instant d'un preprint non relu par les pairs, et les évaluations restent confinées à des benchmarks simulés ; les prochaines étapes naturelles incluent la validation sur robots physiques et l'intégration dans des pipelines embarqués à contraintes de latence strictes.

RechercheActu
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
39arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

RechercheOpinion
1 source
CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur
40arXiv cs.RO 

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées. L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain. L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

UELa validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

RechercheOpinion
1 source
Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques
41arXiv cs.RO 

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Une équipe de recherche publie sur arXiv (2606.08107) les résultats d'Ego-Pi, une méthode de fine-tuning de modèle VLA (Vision-Language-Action) conçue pour exploiter des données égocentristes humaines dans l'entraînement de robots manipulateurs. L'étude prend comme fondation le modèle π₀.₅ de Physical Intelligence et cible des robots humanoïdes équipés de mains à cinq doigts dextres. Le résultat central : des données de manipulation filmées du point de vue humain permettent au robot d'apprendre de nouvelles sémantiques de tâches et de composer des compétences existantes en comportements inédits, sans nécessiter de données robot équivalentes pour ces mêmes tâches. Ce résultat adresse directement l'un des verrous les plus cités en robotique : la rareté des données d'entraînement à grande échelle. Contrairement au NLP ou à la vision, il n'existe pas de corpus internet pour la manipulation robotique. La démonstration qu'une capture égocentrique humaine, collectée plus facilement, à moindre coût et à plus grande échelle, peut servir de substitut partiel représente un changement de paradigme potentiel pour les pipelines de données. Cela valide aussi l'hypothèse du transfert inter-embodiment : un VLA peut généraliser entre morphologies humaine et robotique si le point de vue reste cohérent. Physical Intelligence, startup californienne fondée en 2023 et à l'origine des modèles π₀ et π₀.₅, positionne ainsi sa fondation comme un socle cross-embodiment viable. Ses concurrents directs, notamment NVIDIA avec GR00T N2 et Google DeepMind avec RT-2, explorent également l'apprentissage multi-source. Il faut souligner qu'Ego-Pi est un preprint non encore évalué par les pairs, sans benchmark industriel ni déploiement réel annoncé à ce stade.

UERésultats potentiellement utiles aux équipes européennes (CEA-List, INRIA) travaillant sur des VLA, mais aucun acteur ni déploiement européen directement impliqué.

RechercheOpinion
1 source
Retour vers le futur familier : récupération après défaillance des politiques VLA par sélection d'étapes pré-imaginées
42arXiv cs.RO 

Retour vers le futur familier : récupération après défaillance des politiques VLA par sélection d'étapes pré-imaginées

Des chercheurs présentent B2FF (Back to the Familiar Future), un framework de récupération conçu pour les politiques Vision-Language-Action (VLA) appliquées à la manipulation robotique. Le problème central : lorsqu'un bras manipulateur dévie de sa trajectoire nominale, par exemple à cause d'un glissement d'objet ou d'une perturbation externe, la politique VLA se retrouve dans des états visuels non familiers. Les tentatives classiques de re-planification dans ces zones inconnues tendent à déstabiliser les séquences d'actions plutôt qu'à les corriger. L'approche B2FF s'appuie sur le conditionnement visuel futur : avant l'exécution de la tâche, le VLA génère une banque de jalons (milestone bank) composée d'états visuels futurs probables, calculés à partir de l'observation initiale propre. En cas de déviation détectée, un module sélecteur dit "recoverability-aware" identifie le jalon le plus approprié et l'impose comme objectif visuel fixe, forçant la politique à se recaler sur un futur familier. Sur le benchmark LIBERO avec injections d'échecs contrôlées, B2FF porte le taux de succès moyen d'une politique VLA de base de 56,3 % à 74,0 %, sans nécessiter de fine-tuning du générateur d'actions de bas niveau. Ce résultat présente un intérêt concret pour les intégrateurs déployant des bras robotiques en environnement semi-structuré : B2FF s'applique comme une surcouche sans modifier le modèle fondamental, ce qui réduit les coûts d'adaptation et de maintenance. La méthode valide l'hypothèse que le conditionnement visuel prospectif peut remplacer avantageusement un re-planning complet lors des phases de récupération, et contredit l'idée selon laquelle la robustesse aux perturbations exige systématiquement du fine-tuning ou des données supplémentaires. Un point de vigilance : les expériences utilisent un timing de récupération contrôlé, aligné précisément sur les injections d'échecs, condition nettement plus favorable que ce que l'on rencontre en opérations réelles. B2FF s'inscrit dans un champ en pleine ébullition autour des VLA généralistes : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA explorent la manipulation polyvalente pilotée par instructions en langage naturel, mais la récupération post-échec reste un angle sous-exploré dans la littérature. Les approches concurrentes incluent les politiques de récupération dédiées entraînées séparément, et les architectures à états de monde explicites, plus interprétables mais moins généralisables. La prochaine étape logique pour B2FF serait une validation sur hardware réel avec un timing de récupération non contrôlé, seul test permettant de quantifier l'écart entre benchmark et déploiement industriel.

RechercheOpinion
1 source
Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée
43arXiv cs.RO 

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

Un article soumis en juin 2026 sur arXiv (2606.08520) propose une méthode graduée pour convertir des modèles de vision-langage généralistes (VLMs) en politiques de contrôle robotique (VLAs). Les auteurs identifient un double fossé qui explique les échecs du fine-tuning direct : un fossé visuel (les VLMs sont entraînés sur des images internet, pas sur des scènes de manipulation robot) et un fossé d'objectif (passer de la compréhension de texte à la prédiction de commandes motrices). Pour combler ces deux ruptures progressivement, ils introduisent les "embodied trajectory-coupled data" (ETC), des paires vision-langage extraites des mêmes trajectoires et environnements visuels que ceux utilisés pour l'entraînement à l'action, mais conservant un objectif de supervision en langage naturel. La recette d'entraînement se déroule en trois étapes séquentielles : Distribution Bridging (adaptation sémantique au domaine incarné), Objective Bridging (transition progressive vers la prédiction d'action), puis Retentive Adaptation (spécialisation au domaine de déploiement cible). Les expériences sont validées en simulation et sur robot réel, sans que l'abstract ne précise le matériel ni les benchmarks utilisés. La contribution centrale n'est pas un nouveau modèle mais une stratégie de curriculum d'entraînement qui conteste une hypothèse répandue dans la communauté : que le fine-tuning direct sur données d'action suffit, comme cela fonctionne pour d'autres domaines (vision médicale, OCR). Le papier montre expérimentalement que ce raccourci provoque une dégradation des généralisations acquises en préentraînement, phénomène particulièrement prononcé dans les architectures multimodales. Pour les intégrateurs, l'enjeu est concret : les ETC data peuvent être générées depuis des trajectoires déjà enregistrées sans coût de collecte supplémentaire, et les mélanger avec une faible quantité de données d'action permettrait de généraliser à de nouvelles conditions visuelles et linguistiques sans démonstrations supplémentaires, ce qui adresse directement le problème du long-tail en déploiement industriel. Ce travail s'inscrit dans la dynamique ouverte par RT-2 (Google DeepMind, 2023) qui a lancé la course aux VLAs, avec des modèles comme pi-zéro (Physical Intelligence), OpenVLA, ou RoboFlamingo comme repères concurrents. Le coût des données d'action robotique reste le noeud central pour des acteurs comme Figure AI, 1X Technologies ou Agility Robotics, qui financent massivement la collecte en déploiement réel. L'approche ETC propose une voie complémentaire en valorisant les trajectoires déjà existantes, sans nécessairement passer par de nouvelles sessions de télé-opération. Au stade de la soumission, les auteurs n'ont annoncé ni code public ni implémentation open-source.

RechercheOpinion
1 source
TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels
44arXiv cs.RO 

TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels

Une équipe de chercheurs propose TBD-VLA (Temporal Block Diffusion Vision Language Action Model), un nouveau cadre de génération d'actions pour les modèles Vision-Language-Action (VLA) robotiques, publié le 9 juin 2026 sur arXiv (identifiant 2606.07895). L'approche repose sur la diffusion discrète par blocs temporels : les séquences d'actions sont partitionnées en blocs, à l'intérieur desquels un processus de diffusion masquée génère les tokens d'action en parallèle, tandis que la génération reste autoregressive d'un bloc à l'autre. Le modèle intègre également une fonctionnalité baptisée "Real-Time Chunking", qui permet l'exécution asynchrone des blocs d'action via un mécanisme d'interpolation temporelle (temporal in-painting). Les auteurs rapportent des gains de performance significatifs sur benchmarks en simulation et sur des tâches de manipulation en environnement réel par rapport aux approches VLA antérieures, sans préciser de métriques chiffrées dans l'abstract. L'enjeu central que TBD-VLA cherche à résoudre est double : la latence d'inférence élevée des VLA discrets classiques, et l'absence de modélisation explicite des dépendances temporelles dans les architectures de décodage parallèle récentes. Les VLA discrets standard génèrent les actions token par token de manière autoregressive, une approche précise mais trop lente pour les contraintes temps-réel d'un bras manipulateur industriel. Les tentatives précédentes de décodage parallèle accélèrent l'inférence mais sacrifient la cohérence temporelle entre tokens. TBD-VLA propose un compromis structuré : parallélisme intra-bloc pour la vitesse, autoregressivité inter-blocs pour la cohérence. Si les gains annoncés se confirment à l'échelle, cette architecture offre une voie vers des VLA déployables en milieu industriel avec des contraintes de cycle time réalistes. Le développement des VLA robotiques s'est accéléré depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence (basé sur la diffusion continue), OpenVLA de l'Université de Californie Berkeley, et les approches RoboVLMs. TBD-VLA se distingue en restant dans l'espace des tokens discrets, aligné avec les architectures LLM standards, tout en empruntant à la diffusion pour la génération intra-bloc. Le papier publie un site de projet (tbd-vla.github.io) et présente des résultats sur simulation et manipulation réelle, mais reste à ce stade une contribution académique sans déploiement industriel annoncé. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning sur données propriétaires, terrain sur lequel Physical Intelligence et Figure AI conservent une avance significative.

RechercheOpinion
1 source
ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents
45arXiv cs.RO 

ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents

Une équipe de recherche a présenté ω-EVA (omega-EVA) en juin 2026 sur arXiv, un système de contrôle robotique qui introduit une boucle "Envision-Verify-Act" pour la génération d'actions en manipulation. Le coeur du système est un modèle de monde latent interactif structuré en trois étapes: apprentissage de dynamiques latentes conditionnées par l'action, entraînement d'une politique de flux conditionnée par le langage sur des représentations visuelles "dynamiques-aware", puis rétroalimentation de la proposition d'action à travers ce même modèle. Un raffineur tri-branche raisonne simultanément sur l'état courant, le futur conditionné par la proposition, et l'action candidate pour produire le chunk d'action final. Le modèle compte environ 1,2 milliard de paramètres et n'a pas nécessité de préentraînement sur des données robotiques supplémentaires. Les évaluations couvrent des tâches de manipulation à bras unique, bimanuelle, à horizon long et en environnements perturbés, toutes menées en simulation. La plupart des politiques robotiques actuelles, y compris les VLA (Vision-Language-Action models) comme π0 de Physical Intelligence ou GR00T N2 de NVIDIA, mappent directement les observations vers les actions sans inspecter les conséquences des actions candidates avant exécution. ω-EVA propose un changement de paradigme: le modèle de monde devient un module de rétroaction actif à l'inférence, permettant à la politique de "vérifier" dans l'espace latent l'effet probable de son action avant de la valider. Point clé du design: cette vérification se fait entièrement dans l'espace des features latentes, sans génération de vidéo future, ce qui maintient une charge computationnelle raisonnable à l'inférence. Pour un intégrateur industriel ou un roboticien, l'enjeu est concret: filtrer les actions à risque avant qu'elles atteignent l'effecteur, un problème structurel des VLA déployés en milieu non contrôlé où le "demo-to-reality gap" reste critique. L'utilisation des world models comme module de rétroaction à l'inférence reste rare dans la littérature; la majorité des travaux existants, dont la série Dreamer de Hafner (2019-2023), les exploite pour l'entraînement ou la planification hors ligne. Dans la course aux VLA, les acteurs dominants, Physical Intelligence (π0, π0.5), NVIDIA (GR00T N2), Figure (Helix) et 1X Technologies, misent sur des architectures plus larges et des datasets propriétaires massifs. ω-EVA propose une alternative compacte à 1,2 milliard de paramètres sans ce prérequis en données, ce qui peut intéresser des laboratoires académiques ou des startups à ressources limitées. L'article étant un preprint arXiv non encore soumis à peer review, et les benchmarks étant exclusivement en simulation, la validation sur robot physique en environnement réel reste l'étape déterminante à franchir.

UEL'approche compacte (1,2 Md paramètres, sans données robotiques supplémentaires) pourrait intéresser les laboratoires académiques européens et les startups FR/EU à ressources limitées travaillant sur les VLA, mais aucun acteur européen n'est directement impliqué.

RechercheOpinion
1 source
MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)
46arXiv cs.RO 

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.09827, juin 2026) MemoryVLA++, un framework de modélisation temporelle pour modèles VLA (Vision-Language-Action). L'architecture combine trois composants : une mémoire de travail construite à partir des tokens perceptifs et cognitifs générés par un VLM pré-entraîné sur l'observation courante ; une banque mémoire Perceptual-Cognitive qui indexe contexte sémantique et détails bas niveau des interactions passées via un mécanisme de consolidation sans redondance ; et un modèle du monde simulant des états futurs dans un espace latent de débruitage. Ces latents imaginés, guidés par la mémoire, alimentent un expert d'action à diffusion qui produit des séquences d'actions temporellement cohérentes. Évalué sur cinq benchmarks de simulation (Libero, SimplerEnv, Mikasa-Robo, Calvin, Libero-Plus) et trois catégories de tâches réelles sur trois robots distincts, le système affiche des gains de +9 % sur les tâches générales, +26 % sur les tâches mémoire-dépendantes, et +28 % sur les tâches d'anticipation. Ces résultats adressent une faiblesse structurelle des VLAs actuels (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA), tous limités à l'observation instantanée et incapables de maintenir un contexte opérationnel sur plusieurs étapes. Pour des tâches longue-portée (reprendre une manipulation interrompue, enchaîner des gestes interdépendants), cette limitation est rédhibitoire en environnement industriel réel. Le gain de +26 % sur les tâches mémoire-dépendantes, mesuré hors simulation, est le point le plus solide de la publication : il suggère que l'architecture surmonte partiellement le sim-to-real gap qui affaiblit beaucoup de travaux académiques récents. Pour un intégrateur ou un COO industriel, c'est la différence entre un robot qui réinitialise sa compréhension à chaque step et un qui maintient un contexte cohérent sur l'ensemble de la séquence de manipulation. MemoryVLA++ s'inscrit dans une vague de travaux cherchant à injecter du raisonnement temporel dans les fondations robotiques, face aux architectures VLA portées par Physical Intelligence, NVIDIA et Google DeepMind. L'inspiration est explicitement cognitive : mémoire de travail (buffer court terme), système hippocampique (mémoire épisodique des interactions passées) et simulation mentale d'états futurs, trois mécanismes documentés en neurosciences. L'article reste un preprint non relu par les pairs, et les vidéos de démonstration sur la page projet méritent une lecture critique avant toute conclusion définitive. Les suites naturelles seraient une validation sur bras industriels à 6-7 DOF en environnement non contrôlé et une comparaison rigoureuse avec des approches à mémoire externe de type RAG robotique. Aucun acteur européen n'est impliqué dans ces travaux.

RechercheOpinion
1 source
Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes
47VentureBeat AI 

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper
1 source
Les agents IA ancrés dans le monde réel
48Amazon Science 

Les agents IA ancrés dans le monde réel

En 2026, l'intelligence artificielle franchit une étape décisive : les modèles qui se contentaient de "savoir" cèdent la place à des agents capables d'"agir". Les grands modèles de fondation (Foundation Models), entraînés sur des volumes massifs de données, servent désormais de moteurs cognitifs à des agents déployés dans des environnements physiques réels, des entrepôts et usines aux hôpitaux et systèmes de transport. Amazon illustre concrètement ce virage avec le lancement de Project Eluna, un agent IA développé par les équipes Amazon Fulfillment Technology (AFT) en collaboration avec l'Université de Californie à San Diego. Hébergé dans le cloud, Eluna assiste les opérateurs de centres de traitement des commandes via des tableaux de bord numériques : il analyse en temps réel l'état des tapis roulants et des robots, anticipe les goulots d'étranglement et recommande des actions aux responsables logistiques avec un degré d'autonomie croissant. Le principal défi que ces agents doivent surmonter est celui des hallucinations. Dans un environnement virtuel, une IA peut inventer des citations ou produire des erreurs factuelles ; dans un environnement physique, les conséquences deviennent dangereuses. Si un agent propose un itinéraire robotique sans tenir compte de la masse ou de l'élan des objets déplacés, il peut mettre des humains en danger ou endommager des équipements. Pour y répondre, les chercheurs définissent quatre approches d'"ancrage" (grounding), soit l'intégration de données externes, de principes physiques et de simulations numériques dans le raisonnement du modèle. La première, l'apprentissage profond guidé par la physique (PGDL), consiste à intégrer des lois fondamentales comme la conservation de l'énergie ou les équations différentielles du mouvement directement dans la phase de préentraînement, ce qui réduit drastiquement la quantité de données nécessaires. La deuxième, baptisée UQ4CT, dote l'agent d'une conscience de ses propres incertitudes pour qu'il sache reconnaître ce qu'il ne sait pas, condition indispensable dans des contextes critiques où la surconfiance peut être fatale. Ces travaux s'inscrivent dans une dynamique industrielle plus large que l'on désigne sous le terme d'"IA physique". Pendant des années, les LLM ont démontré leur puissance dans les domaines numériques : génération de texte, code, analyse de données. Leur déploiement dans le monde matériel exige une couche supplémentaire de rigueur que les architectures actuelles n'intègrent pas nativement. Amazon, avec la superficie colossale de son réseau logistique mondial, constitue un terrain d'expérimentation idéal pour valider ces approches à grande échelle. Si les quatre piliers proposés font leurs preuves dans les entrepôts, leur portée pourrait s'étendre rapidement à d'autres secteurs industriels, de la robotique chirurgicale à la gestion des réseaux électriques, où erreur et physique ne font jamais bon ménage.

UELes techniques d'ancrage pour l'IA physique (PGDL, UQ4CT) sont directement applicables aux secteurs industriels européens, automobile, aéronautique, santé , , mais aucun acteur européen n'est impliqué dans ces travaux, ce qui souligne un retard stratégique potentiel.

RecherchePaper
1 source
Les sous-titres détaillés surpassent le volume brut pour entraîner des générateurs d'images efficaces, selon Lens de Microsoft Research
49The Decoder 

Les sous-titres détaillés surpassent le volume brut pour entraîner des générateurs d'images efficaces, selon Lens de Microsoft Research

Microsoft Research a publié Lens, un modèle de génération d'images à partir de texte doté de seulement 3,8 milliards de paramètres, capable de rivaliser avec des modèles bien plus volumineux sur les benchmarks standard, à une fraction du coût d'entraînement habituel. La clé de cette performance réside dans les données : au lieu de s'appuyer sur les descriptions alternatives vagues issues du web, l'équipe a généré 800 millions de légendes d'images très détaillées à l'aide de GPT-4.1. Le code source et les poids du modèle ont été publiés sous licence open source. Ce résultat remet en question une hypothèse dominante dans l'industrie de l'IA : celle selon laquelle il faudrait toujours plus de paramètres et de données brutes pour obtenir de meilleures performances. Lens démontre qu'un modèle compact, nourri de données de haute qualité, peut égaler des modèles propriétaires bien plus lourds. Pour les équipes disposant de ressources limitées, cela ouvre la voie à des pipelines de génération d'images performants sans investissement massif en infrastructure. Cette publication s'inscrit dans une tendance qui valorise la qualité des données d'entraînement plutôt que leur quantité brute, une philosophie déjà portée par des modèles comme Phi chez Microsoft lui-même. L'utilisation de GPT-4.1 pour générer des descriptions riches et précises rappelle les approches de recaptioning adoptées par Stability AI ou Adobe Firefly. En rendant Lens accessible à tous, Microsoft Research contribue à démocratiser la recherche en génération visuelle, et pourrait accélérer l'émergence de modèles spécialisés plus efficaces dans des domaines comme le design, la médecine ou l'éducation.

UELa publication open source de Lens permet aux équipes de recherche et startups européennes de développer des pipelines de génération d'images performants sans infrastructure coûteuse.

RecherchePaper
1 source
Les agents autonomes face au défi entre intention et exécution
50Amazon Science 

Les agents autonomes face au défi entre intention et exécution

Des chercheurs en intelligence artificielle ont publié une étude approfondie sur ce qu'ils nomment l'« écart entre intention et exécution » dans les systèmes d'agents IA, le fossé entre ce qu'un modèle de langage entend faire et ce que le logiciel qui l'entoure réalise concrètement. Pour l'illustrer : un modèle peut vouloir corriger une seule instance d'une fonction dans du code, mais le harnais, le logiciel qui orchestre ses actions et gère ses interactions avec les outils, en modifie involontairement plusieurs. Pour combler cet écart sans aucun ajustement spécifique à une tâche, les chercheurs ont développé Simple Strands Agent (SSA), un harnais léger et personnalisable à agent unique. Testé sur plusieurs benchmarks de référence, dont SWE-Pro, SWE-Verified (qui évaluent la correction automatique de dépôts de code réels) et Terminal-Bench2 (environnements de terminal interactifs), SSA obtient des gains de performance constants sur plusieurs familles de modèles. Ce travail pointe un problème structurel souvent ignoré dans l'évaluation des agents IA : les performances publiées sur les benchmarks reflètent autant la qualité de l'infrastructure d'évaluation que la capacité intrinsèque du modèle. Des facteurs apparemment triviaux, délais d'expiration lors des interactions avec l'environnement, stabilité de l'infrastructure, contraintes de ressources, provoquent des variations de performance significatives. Les auteurs baptisent ce phénomène le « benchmaxing » : la tendance à optimiser les scores publiés sans nécessairement améliorer la capacité réelle du système. Pour les équipes qui déploient des agents en production, cela signifie qu'un gain impressionnant sur un benchmark peut disparaître entièrement dans un contexte légèrement différent, rendant les comparaisons entre systèmes peu fiables. L'étude s'inscrit dans un débat plus large sur la conception des agents IA. Pendant des années, la priorité a été donnée aux optimisations spécifiques : prompts ajustés, outils sur mesure, graphes d'exécution spécialisés. Or les chercheurs montrent que ces gains sont souvent fragiles, ce qui fonctionne pour un modèle ou une version donnée se dégrade ou régresse avec les modèles suivants, car ces optimisations surajustent implicitement le comportement d'un modèle particulier. La conclusion est qu'il faut désormais identifier des principes de conception invariants, valables quel que soit le modèle sous-jacent. L'interface entre modèle et harnais devient ainsi un domaine de recherche central, à l'image du rôle d'un système d'exploitation vis-à-vis d'un processeur. Les auteurs soulignent également que cette conception n'est pas entièrement agnostique au modèle : différentes familles de modèles ont des préférences distinctes en matière d'utilisation des outils et d'interprétation du contexte, faisant de la coconception modèle-harnais un levier décisif pour atteindre des performances optimales.

RecherchePaper
1 source