Aller au contenu principal

Recherche — page 4

671 articles · page 4 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

OpenAI repousse les limites du raisonnement automatisé avec ce qu'il appelle une avancée majeure en mathématiques
151The Decoder RecherchePaper

OpenAI repousse les limites du raisonnement automatisé avec ce qu'il appelle une avancée majeure en mathématiques

Un modèle de raisonnement d'OpenAI vient de réfuter une conjecture du mathématicien Paul Erdős portant sur la géométrie des distances unitaires, restée ouverte depuis 1946. Pour y parvenir, le modèle a mobilisé des outils issus de la théorie algébrique des nombres, une approche que les spécialistes du domaine n'avaient jamais envisagée dans ce contexte. La médaille Fields Tim Gowers, l'une des plus grandes autorités mondiales en mathématiques, a qualifié le résultat de "jalon dans les mathématiques de l'IA", et la communauté scientifique est désormais en train d'en analyser les détails techniques. L'impact va bien au-delà d'un simple exercice de calcul. En invalidant une conjecture vieille de 80 ans par un chemin conceptuellement inattendu, l'IA démontre une capacité à explorer des espaces de solutions que les chercheurs humains auraient peu de chances d'emprunter spontanément. Tim Gowers lui-même avertit : "Nous sommes probablement entrés dans une ère où il deviendra très difficile pour les humains de rivaliser avec l'IA dans la résolution de problèmes mathématiques." Ce n'est plus une promesse, c'est un constat d'un pair reconnu. Les conjectures d'Erdős forment l'un des corpus de problèmes ouverts les plus célèbres des mathématiques modernes, et beaucoup résistent depuis des décennies. OpenAI s'inscrit dans une course engagée avec Google DeepMind et d'autres, qui cherchent tous à démontrer que leurs modèles peuvent produire de véritables avancées scientifiques, et pas seulement assister les chercheurs. Cette démonstration pourrait accélérer l'intégration de l'IA dans les laboratoires de mathématiques pures, et relancer le débat sur ce que signifie "comprendre" en mathématiques.

UELes chercheurs en mathématiques des universités françaises et européennes pourraient être amenés à reconsidérer le rôle de l'IA comme outil de découverte scientifique dans leurs laboratoires de recherche fondamentale.

1 source
Séisme dans les maths : l’IA résout une énigme insoluble depuis 80 ans
152Le Big Data 

Séisme dans les maths : l’IA résout une énigme insoluble depuis 80 ans

Le 20 mai 2026, OpenAI a annoncé qu'un de ses modèles de raisonnement avait résolu de manière autonome la conjecture des distances unitaires, un problème de géométrie discrète posé par le mathématicien hongrois Paul Erdős en 1946. La question, d'une formulation apparemment simple, demandait combien de paires de points placés sur un plan pouvaient être séparées exactement par une même distance unitaire. Pendant 80 ans, les mathématiciens avaient convergé vers une intuition commune : les configurations optimales ressemblaient à des grilles carrées ou triangulaires, et la borne maximale ne pouvait dépasser n^(1+o(1)). Le modèle d'OpenAI a infirmé cette conjecture en construisant une nouvelle famille de configurations surpassant radicalement les réseaux classiques, avec une borne de type n^(1+δ), où δ est une constante strictement positive. La plus petite configuration illustrant cette découverte implique un nombre de points de l'ordre de 10^1957, un chiffre tellement astronomique qu'aucune représentation physique n'est envisageable dans notre univers. Ce résultat ne représente pas un exploit de calcul brut, mais un véritable saut conceptuel. Pour dépasser la borne d'Erdős, le modèle n'a pas testé des milliards de configurations à l'aveugle : il a transposé le problème depuis la géométrie discrète vers la théorie algébrique des nombres, mobilisant des structures comme les corps CM et les tours de corps de classes de type Golod-Shafarevich. Ce déplacement conceptuel est précisément ce qu'aucun mathématicien humain n'avait spontanément envisagé. Le résultat a été vérifié à deux niveaux indépendants, par des vérificateurs formels automatisés et par des chercheurs humains spécialisés, ce qui lui confère une légitimité scientifique solide. Timothy Gowers, médaillé Fields, a réagi publiquement en conseillant à ses confrères mathématiciens de s'asseoir avant de lire la preuve. Ce succès s'inscrit dans une accélération spectaculaire des capacités mathématiques des grands modèles de langage. Depuis 2024, les systèmes de raisonnement d'OpenAI, de DeepMind et d'autres acteurs ont multiplié les percées sur des problèmes de compétition, mais s'attaquer à une conjecture ouverte depuis huit décennies constitue un palier qualitatif différent. La question qui se pose désormais pour la communauté scientifique n'est plus de savoir si l'IA peut assister les chercheurs, mais dans quelle mesure elle peut les devancer sur des problèmes où l'intuition humaine s'est révélée structurellement limitée. D'autres conjectures ouvertes, en topologie, en théorie des nombres, en combinatoire, se retrouvent soudainement sous un regard nouveau, celui d'un outil capable de naviguer dans des espaces abstraits inaccessibles à la perception humaine.

UELes laboratoires de mathématiques français et européens (CNRS, IHES, IMJ-PRG) devront réévaluer leur approche des conjectures ouvertes de longue date face à des modèles capables de déplacements conceptuels que l'intuition humaine n'avait pas envisagés.

💬 C'est pas la résolution qui m'épate, c'est le déplacement. Le modèle n'a pas cherché plus fort que les humains sur leur propre terrain, il a changé de terrain (passer de la géométrie discrète à la théorie algébrique des nombres, un angle qu'aucun mathématicien n'avait jugé pertinent en 80 ans). Gowers conseille de s'asseoir avant de lire la preuve, et Gowers, c'est pas quelqu'un qui dit ça pour rien.

RecherchePaper
1 source
GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars
153Latent Space 

GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars

OpenAI a annoncé début mai 2026 qu'un modèle interne, vraisemblablement une version intermédiaire de GPT-5, surnommée GPT-5.6, a réfuté une conjecture mathématique vieille de 80 ans : le problème des distances unitaires planes, posé par le mathématicien hongrois Paul Erdős en 1946. Le modèle a produit ce résultat en moins de 32 heures de calcul, pour un coût estimé à moins de 1 000 dollars. Concrètement, il a découvert une nouvelle famille de constructions géométriques qui dépasse les meilleures solutions connues basées sur les grilles carrées. Le raisonnement généré s'étend sur environ 125 pages, avec un passage en page 39 qui a particulièrement attiré l'attention de la communauté mathématique. Il s'agit techniquement d'une réfutation, pas d'une preuve, ce qui, selon les auteurs, rend le résultat légèrement moins spectaculaire qu'il aurait pu être, mais significatif malgré tout. Ce qui frappe les observateurs, c'est que le modèle utilisé n'est pas un système spécialisé comme AlphaProof ou un prouveur formel de type Lean, mais un LLM généraliste. Le mathématicien Timothy Gowers, médaille Fields 1998, a qualifié ce résultat de "premier exemple vraiment clair" où une IA résout un problème mathématique ouvert de renom. Le chercheur d'OpenAI Hongxun Wu y voit une démonstration de capacités de raisonnement sur des "problèmes de la plus haute difficulté". L'implication est importante : si un modèle généraliste peut progresser sur des problèmes ouverts en géométrie discrète, le même type de raisonnement pourrait s'appliquer à d'autres domaines scientifiques, biologie, physique, chimie computationnelle. OpenAI a précisé que le modèle n'a pas été poussé à ses limites et sera mis à disposition du public. Ce résultat s'inscrit dans une dynamique plus large autour du calcul à l'inférence : l'idée que donner plus de temps de réflexion à un modèle, plutôt que d'entraîner un modèle plus grand, est le levier dominant du progrès actuel. La longueur inhabituelle du raisonnement produit (125 pages) illustre précisément cette approche. En parallèle, Cohere a publié cette même semaine Command A+, son premier modèle entièrement open source sous licence Apache 2.0 : 218 milliards de paramètres en architecture MoE avec 25 milliards actifs, multimodal, compatible 48 langues, et capable de tourner sur seulement deux GPU H100 en quantification W4A4. Les benchmarks le placent au niveau de Claude 4.5 Haiku avec de bonnes performances en évitement des hallucinations, mais en retrait sur le raisonnement scientifique et le code par rapport aux modèles de tête. Ces deux annonces confirment une semaine de mai 2026 particulièrement dense pour l'IA de frontière.

RecherchePaper
1 source
Un seul modèle, trois modalités : ByteDance lance Lance pour comprendre, générer et éditer images et vidéos
154MarkTechPost 

Un seul modèle, trois modalités : ByteDance lance Lance pour comprendre, générer et éditer images et vidéos

L'équipe de recherche de ByteDance a publié Lance, un modèle d'intelligence artificielle capable de comprendre, générer et modifier des images et des vidéos au sein d'une seule et même architecture. Présenté dans un article de recherche disponible sur arXiv, Lance organise ses capacités autour de trois familles de sorties : texte, images et vidéos. Côté compréhension, il prend en charge la description d'images et de vidéos, les questions-réponses visuelles, la reconnaissance optique de caractères et le raisonnement visuel. Côté génération, il couvre la création d'images et de vidéos à partir de texte, la conversion image-vers-vidéo, la génération guidée par un sujet, et l'édition cohérente multi-tours sur les deux modalités. Le modèle repose sur une architecture de 3 milliards de paramètres initialisée depuis Qwen2.5-VL 3B de Alibaba, et intègre le codec vidéo 3D causal VAE de Wan2.2, également développé par ByteDance. Réunir compréhension et génération dans un seul modèle représente un défi technique de premier ordre, car les deux tâches tirent dans des directions opposées : la compréhension requiert des représentations sémantiques compactes alignées sur le langage, tandis que la génération exige des représentations continues à bas niveau pour préserver textures, géométrie et dynamiques temporelles. La plupart des systèmes existants contournent cette tension en séparant les deux blocs puis en les connectant après coup. Lance est l'un des rares modèles à les unifier nativement dès l'entraînement, grâce à une architecture à double flux de type mixture-of-experts : un expert dédié à la compréhension (LLMUND) et un expert dédié à la génération (LLMGEN), partageant le même contexte d'entrée sans se concurrencer sur les mêmes paramètres. Pour les professionnels du multimédia, des plateformes de contenu ou des développeurs d'outils créatifs, cette convergence ouvre la voie à des pipelines considérablement simplifiés. Le principal obstacle architectural résidait dans la coexistence de types de tokens hétérogènes au sein d'une même séquence : tokens textuels, tokens visuels sémantiques produits par le encodeur ViT de Qwen2.5-VL, et tokens latents continus issus du VAE avec un sous-échantillonnage spatial de 16× et temporel de 4×. Le positionnement rotatif standard en 3D (3D-RoPE) ne permettait pas de distinguer ces groupes, créant des ambiguïtés de frontières préjudiciables à l'alignement entre tâches. ByteDance a introduit MaPE (Modality-Aware Rotary Positional Encoding), qui applique un décalage temporel fixe à chaque groupe de modalité selon son ordre dans la séquence, tout en laissant les coordonnées spatiales intactes. Lance s'inscrit dans une course plus large entre les grands laboratoires asiatiques et occidentaux pour produire des modèles visuels unifiés : des approches similaires ont été explorées par Google avec Gemini et par des équipes académiques, mais peu ont démontré une couverture aussi complète du cycle image-vidéo dans un seul modèle entraîné conjointement.

RecherchePaper
1 source
VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)
155arXiv cs.RO 

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Une équipe de recherche vient de publier VLA-REPLICA (arXiv:2605.20774, mai 2026), un banc d'évaluation réel, bas coût et reproductible, conçu pour tester les modèles de type Vision-Language-Action (VLA) sur des tâches de manipulation robotique. L'architecture repose entièrement sur des composants disponibles dans le commerce, ce qui permet à n'importe quel laboratoire d'assembler le setup en quelques jours et de reproduire les mêmes conditions expérimentales. Le benchmark intègre une suite de tâches de manipulation variées, un dataset de démonstrations de petite taille pour l'adaptation au domaine cible, ainsi que des protocoles d'évaluation distincts pour des scénarios en distribution et hors distribution. Les expériences menées couvrent l'apprentissage par imitation classique et plusieurs modèles VLA de l'état de l'art, avec des résultats cohérents obtenus sur des setups construits indépendamment dans différents sites. L'enjeu derrière VLA-REPLICA est directement lié à un problème structurel du secteur : l'évaluation réelle des modèles VLA reste fragmentée, coûteuse, et difficile à comparer d'un labo à l'autre. Les benchmarks en simulation ne capturent pas la complexité du monde physique, tandis que les benchmarks réels existants exigent souvent du matériel spécialisé onéreux ou une évaluation centralisée. Ce benchmark vise à combler ce fossé en fournissant une infrastructure standardisée et décentralisée, ce qui est une condition nécessaire pour que la communauté puisse comparer honnêtement les modèles et identifier leurs limites réelles, notamment face au sim-to-real gap qui affecte encore la plupart des politiques de manipulation. Les modèles VLA ont connu une montée en puissance rapide ces deux dernières années, avec des systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu des travaux de Stanford et Berkeley. Malgré des performances impressionnantes en démo, leur déploiement industriel reste freiné par l'absence de protocoles d'évaluation partagés et comparables. VLA-REPLICA s'inscrit dans un mouvement plus large de standardisation des benchmarks robotiques, comparable à ce qu'ont représenté BOP ou NIST Task Board pour d'autres sous-domaines. La prochaine étape logique serait l'adoption de ce protocole par plusieurs équipes tier-1 pour valider la reproductibilité à grande échelle et créer une baseline commune sur laquelle ancrer les publications futures.

UELes laboratoires européens de robotique (CEA-List, INRIA, universités) peuvent adopter ce benchmark reproductible bas coût pour évaluer leurs modèles VLA sur une infrastructure standardisée, abaissant la barrière d'entrée aux comparaisons internationales sans dépendre de matériel onéreux ou de benchmarks centralisés.

💬 C'est le genre de truc qu'on attendait depuis deux ans, même si ça fait moins de bruit qu'un nouveau modèle. Les benchmarks en simulation ne capturent pas le monde physique, et les vrais setups coûtaient trop cher pour être reproduits d'un labo à l'autre. Du matos grand public et des protocoles partagés, c'est la fondation qui manquait pour que les comparaisons aient enfin du sens.

RecherchePaper
1 source
VLANeXt : recettes pour construire des modèles VLA performants
156arXiv cs.RO 

VLANeXt : recettes pour construire des modèles VLA performants

Une équipe de chercheurs a publié VLANeXt, un modèle Vision-Language-Action (VLA) qui surpasse l'état de l'art sur les benchmarks LIBERO et LIBERO-plus, deux références standards pour l'évaluation de politiques robotiques généralisables. Le papier (arXiv 2602.18532v2), loin de se limiter à une nouvelle architecture, repose sur une étude systématique de l'espace de conception des VLA, structurée en trois axes: les composants fondamentaux, les éléments de perception, et la modélisation des actions. Partant d'une baseline inspirée de RT-2, les auteurs identifient 12 résultats clés formant une recette reproductible pour construire des modèles VLA performants. Le code est publié en open source sur GitHub pour permettre à d'autres équipes de reproduire les expériences et d'itérer sur cette base commune. L'apport principal de ce travail n'est pas le modèle lui-même, mais la méthode. Le domaine des VLA souffre d'un problème structurel: chaque groupe publie son propre modèle avec des protocoles d'entraînement et des setups d'évaluation incompatibles, rendant toute comparaison rigoureuse impossible. VLANeXt impose un cadre unifié qui permet enfin d'isoler quelles décisions de conception ont un effet mesurable sur les performances. Pour les équipes R&D travaillant sur des politiques robotiques généralisables, les 12 findings donnent des règles pratiques sur le choix du backbone VLM, le traitement des entrées visuelles et la tête de prédiction d'actions. La validation en conditions réelles renforce la crédibilité des résultats, même si les détails des expériences physiques restent parcellaires dans l'abstract. Les VLA émergent de la convergence entre grands modèles multimodaux et robotique incarnée. RT-2 (Google DeepMind, 2023) a été le précurseur, montrant qu'un VLM pré-entraîné pouvait piloter un robot réel après fine-tuning. Une vague de travaux a suivi: pi-0 (Physical Intelligence), OpenVLA, Octo, RoboFlamingo. Face à cette prolifération, VLANeXt propose un point de stabilisation méthodologique plutôt qu'une course aux performances brutes. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un travail académique dont la valeur tient à la rigueur comparative. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus exigeants comme BridgeV2 ou DROID, et une adoption par des équipes travaillant sur des plateformes physiques commerciales.

RechercheOpinion
1 source
Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels
157The Decoder 

Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels

Google DeepMind a couplé son modèle de monde génératif Genie 3 à la base de données Street View pour permettre à des utilisateurs de créer des environnements 3D explorables à partir de lieux réels. Le principe est simple : l'utilisateur pose une épingle sur une carte, et le système génère automatiquement un monde interactif dans lequel il peut se déplacer, construit à partir des images photographiées par les voitures Google au fil des années. La démonstration illustre une convergence inédite entre la cartographie grand public et la génération de mondes par intelligence artificielle. L'enjeu dépasse la simple curiosité technologique. Ces environnements synthétiques mais ancrés dans la réalité constituent une ressource d'entraînement particulièrement précieuse pour les agents IA et les systèmes robotiques, qui ont besoin de naviguer dans des espaces proches du monde physique sans avoir à y être déployés physiquement. Là où les simulateurs classiques exigeaient un travail de modélisation manuel considérable, Genie 3 génère ces espaces à la volée, à partir de données déjà collectées massivement. Google DeepMind travaille sur la série Genie depuis 2024 : Genie 1 avait montré la capacité à générer des environnements 2D jouables, Genie 2 avait franchi le cap de la 3D cohérente. L'intégration à Street View transforme la flotte de véhicules cartographiques de Google en infrastructure d'entraînement pour la prochaine génération de robots et d'agents autonomes, positionnant l'entreprise avec un avantage concurrentiel difficile à répliquer pour des acteurs sans accès à des données géospatiales à cette échelle.

UELes données Street View couvrant l'ensemble du territoire européen, cette technologie pourrait générer des environnements d'entraînement pour robots et agents IA dans des contextes urbains français et européens, mais aucune application commerciale n'est encore disponible.

RecherchePaper
1 source
DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA
158arXiv cs.RO 

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.19294) une méthode baptisée DEFLECT, Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning, pour corriger un défaut structurel des politiques VLA (Vision-Language-Action) déployées en production. Le problème ciblé est l'inférence asynchrone : pendant qu'un modèle VLA calcule le prochain chunk d'actions, le robot exécute déjà le chunk précédent, conditionné sur une observation capturée plusieurs cycles de contrôle plus tôt. Ce décalage entre prédiction et exécution est bénin à faible latence, mais catastrophique dès que l'inférence s'étire : sur le benchmark Kinetix, le taux de succès s'effondre de 89 % à moins de 1 % quand le cycle d'inférence couvre jusqu'à sept pas de contrôle. DEFLECT apporte un gain de +6,4 points de succès dans ce régime haute latence (5 à 7 pas), +4,6 points sur un VLA réel à la latence maximale testée, avec des améliorations cohérentes sur deux tâches physiques : un pick-and-place bimanuel sur convoyeur et un jeu réactif de type whack-a-mole. L'intérêt industriel de DEFLECT tient à sa nature d'affinement post-entraînement entièrement offline, conçu comme une mise à niveau quasi plug-in sur les stacks VLA asynchrones existants. La méthode construit des paires d'actions contrefactuelles (fraîche vs. périmée) à partir d'une politique de référence gelée, puis les note via un estimateur implicite de ratio de vraisemblance par flow-matching, sans étiquettes humaines, sans modèle de récompense, et sans rollouts en ligne. Ce profil d'intégration est stratégique : les équipes qui déploient aujourd'hui des VLA en environnement industriel, où la latence réseau, la charge GPU et la fréquence de contrôle sont rarement synchronisées, peuvent théoriquement appliquer DEFLECT sans refaire de collecte de données ni de fine-tuning supervisé. La robustesse au délai est un frein réel à la commercialisation des politiques généralisées, et c'est la première approche qui quantifie explicitement l'ampleur de l'effondrement avant de le corriger. Les politiques VLA ont émergé comme paradigme dominant depuis RT-2 (Google DeepMind, 2023) et sont au coeur des systèmes de Physical Intelligence (pi0), de Figure AI (Helix), et de Boston Dynamics. Le problème de l'inférence asynchrone est documenté dans plusieurs travaux depuis 2024, mais les solutions proposées jusqu'ici impliquaient généralement un entraînement en ligne coûteux ou des architectures modifiées. DEFLECT se positionne comme une couche de correction légère, applicable à posteriori, ce qui facilite son adoption dans des pipelines déjà stabilisés. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat commercial dans cette version arXiv, il s'agit d'un résultat de recherche, pas d'un produit shipped. Les prochaines étapes probables incluent des évaluations sur des benchmarks standardisés comme LIBERO ou Open-X Embodiment, et potentiellement une intégration dans des frameworks VLA open-source.

RechercheOpinion
1 source
ContextFlow : alignement hiérarchique tâche-état pour agents incarnés à long horizon
159arXiv cs.RO 

ContextFlow : alignement hiérarchique tâche-état pour agents incarnés à long horizon

Une équipe de chercheurs a publié en mai 2026 ContextFlow (arXiv:2605.19314), un cadre d'alignement destiné aux agents robotiques longue durée capables d'enchaîner navigation, recherche, approche et manipulation sur des séquences complexes. Le problème central est ce que les auteurs nomment le "task-state misalignment" : un écart de cohérence au niveau tâche, dans lequel le planificateur central, les observations en temps réel, la mémoire contextuelle et les exécuteurs spécialisés ne convergent plus vers la même décision de prochaine étape. Les symptômes concrets incluent les transferts de contrôle non justifiés ("unsupported handoffs"), le blocage de phase ("stage lock") et les replanifications inutiles qui dégradent la performance globale. Le système représente chaque étape comme un contrat explicite, convertit les observations en paquets d'évidence structurés, et applique cinq types de mises à jour : continue, refine, transfer, promote et repair. L'enjeu est structurant pour l'architecture des robots manipulateurs polyvalents. À mesure que les exécuteurs spécialisés, modèles vision-langage-action (VLA) ou stacks de navigation autonome, deviennent plus robustes, le vrai goulot d'étranglement se déplace : non plus la qualité d'exécution locale, mais la capacité à maintenir une frontière de tâche cohérente sur plusieurs dizaines d'étapes, un angle que les architectures hiérarchiques classiques négligent. Pour un intégrateur industriel, ContextFlow promet moins d'échecs silencieux en production et une meilleure diagnosticabilité des incidents. La séparation entre contrôle local délégué aux exécuteurs et cohérence globale gérée par ContextFlow permet aussi de remplacer ou améliorer les exécuteurs sans refondre l'architecture de planification. Ce travail s'inscrit dans une vague de recherche sur les agents incarnés longue durée, portée par la montée en puissance des VLA et des architectures "foundation model" couplées à des exécuteurs de compétences spécialisées. Les approches concurrentes incluent SayCan et TaPA pour la décomposition de tâches langagières, ainsi que les Behavior Trees pour la gestion d'état structuré. ContextFlow se distingue par son accent sur l'inspectabilité et la traçabilité des décisions d'alignement. Les auteurs valident leur approche sur des traces de démonstration de tâches longue durée, sans benchmark public ni déploiement sur robot physique : les résultats restent expérimentaux, ce qui constitue une limite à noter. Les prochaines étapes naturelles seraient une validation sur des plateformes matérielles, bras manipulateurs ou humanoïdes, et une comparaison quantitative avec des baselines de planification classiques.

RechercheOpinion
1 source
Deux assistants IA parviennent à accomplir des tâches de repositionnement de médicaments
160Ars Technica AI 

Deux assistants IA parviennent à accomplir des tâches de repositionnement de médicaments

La revue Nature a publié mardi deux articles décrivant des systèmes d'intelligence artificielle conçus pour assister les scientifiques dans le développement et la validation d'hypothèses. Le premier, baptisé Co-Scientist et développé par Google, fonctionne selon un modèle dit "scientist in the loop" : les chercheurs restent actifs dans la boucle et orientent le système par leurs jugements à chaque étape. Le second provient de FutureHouse, une organisation à but non lucratif, et va légèrement plus loin en entraînant un système capable d'évaluer de manière autonome des données biologiques issues de certaines catégories d'expériences spécifiques. Les deux équipes présentent exclusivement des données biologiques, portant principalement sur des hypothèses directes de repositionnement de médicaments, autrement dit : tester si un médicament existant peut traiter une autre maladie que celle pour laquelle il a été approuvé. Ces systèmes ne cherchent pas à remplacer les scientifiques ni le processus scientifique lui-même. Ils visent plutôt à prendre en charge ce que les IA actuelles font le mieux : parcourir et synthétiser des volumes massifs d'informations que les humains auraient du mal à absorber seuls. Les deux systèmes sont dits "agentiques" : ils fonctionnent en arrière-plan en appelant des outils externes pour accomplir leurs tâches. Ce type d'architecture permet une plus grande autonomie opérationnelle tout en restant guidé par des objectifs définis par les chercheurs. Cette publication s'inscrit dans une dynamique plus large d'investissement des géants technologiques dans l'IA scientifique. Microsoft a adopté une approche similaire avec son propre assistant scientifique, tandis qu'OpenAI fait figure d'exception en ayant simplement affiné un grand modèle de langage pour la biologie, sans architecture agentique. La multiplication de ces outils reflète un défi croissant pour la recherche : la littérature scientifique croît aujourd'hui bien plus vite qu'un chercheur humain ne peut la suivre, et l'IA commence à combler ce fossé de manière concrète.

UELes laboratoires pharmaceutiques et institutions de recherche européens pourraient à terme tirer parti d'approches similaires pour accélérer la découverte de nouvelles indications thérapeutiques, mais aucun impact direct sur la France ou l'UE n'est identifié.

RecherchePaper
1 source
Agora-1 transforme le classique GoldenEye N64 en simulation IA jouable à quatre
161The Decoder 

Agora-1 transforme le classique GoldenEye N64 en simulation IA jouable à quatre

La startup Odyssey a publié Agora-1, un world model capable de simuler en temps réel un environnement de jeu pour jusqu'à quatre joueurs simultanément. Pour démontrer ses capacités, l'équipe a choisi GoldenEye, le jeu de tir à la première personne sorti sur Nintendo 64 en 1997, devenu une référence culturelle du jeu vidéo. Contrairement aux approches précédentes limitées à un seul joueur, Agora-1 repose sur deux modèles distincts : l'un gère la simulation de l'état du jeu, l'autre prend en charge le rendu visuel, le tout en temps réel. Cette architecture multijoueur représente un saut qualitatif dans le domaine des world models. La capacité à gérer plusieurs agents agissant en parallèle dans un même espace simulé ouvre des perspectives concrètes : entraînement d'agents IA dans des environnements complexes et dynamiques, et développement de systèmes de robotique collaborative où plusieurs robots doivent coordonner leurs actions en temps réel. Pour l'industrie du jeu vidéo, cela laisse entrevoir des moteurs de jeu entièrement générés par l'IA, capables de s'adapter en continu aux décisions des joueurs. Les world models, qui apprennent à simuler la physique et la logique d'un environnement à partir de données visuelles, sont devenus un champ de recherche intense. Google DeepMind avec Genie 2, World Labs fondé par Fei-Fei Li, ou encore Wayve dans l'automobile explorent cette technologie pour créer des simulations interactives. Agora-1 se distingue par sa dimension collaborative, un verrou technique que peu d'équipes avaient jusqu'ici franchi, et positionne Odyssey comme un acteur sérieux dans la course aux simulateurs mondiaux pilotés par l'IA.

RecherchePaper
1 source
Auto-encodeurs épars ancrés dans les événements pour les politiques VLA
162arXiv cs.RO 

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Une équipe de chercheurs a publié le 22 mai 2025 sur arXiv (référence 2605.17204) un pipeline d'interprétabilité pour les politiques Vision-Language-Action (VLA), ces modèles qui traduisent des instructions en langage naturel et des entrées visuelles directement en commandes motrices pour robots. Leur approche, baptisée Event-Grounded SAE (Sparse Autoencoder), ancre l'analyse des représentations internes du modèle à des événements comportementaux concrets plutôt qu'à des contextes textuels. Concrètement, des images-clés (keyframes) de l'effecteur terminal sont extraites et regroupées en clusters selon des critères visuels, d'état et temporels, puis associées optionnellement à des annotations sémantiques via un VLM. La méthode a été validée sur deux architectures en simulation et dans une étude sur robot réel, en ciblant notamment les modèles OpenVLA et pi-0.5 (Physical Intelligence). L'enjeu est considérable pour quiconque déploie des VLA en conditions industrielles : ces politiques restent des boîtes noires dont les représentations internes sont difficiles à auditer. Les outils d'interprétabilité mécaniste développés pour les LLMs ne se transfèrent pas directement aux VLA, car les sorties sont des vecteurs d'action continus, non des tokens lisibles, et chaque intervention ne peut être évaluée que via des rollouts en boucle fermée, coûteux à opérer. Le pipeline présenté est, selon les auteurs, parmi les premiers à ancrer l'analyse SAE dans des événements comportementaux fermés, ce qui produit les effets causaux les plus forts mesurés sur OpenVLA et se transfère aux chunks d'action continus de pi-0.5. Les auteurs notent toutefois des limites : le SAE est une base d'intervention sparse mais imparfaite, dont l'utilisabilité varie selon l'architecture et le point d'injection, et des interventions agressives révèlent des défaillances de sécurité non triviales. Ce travail s'inscrit dans une dynamique d'accélération autour des VLA, où des modèles comme OpenVLA (Berkeley), pi-0 et pi-0.5 (Physical Intelligence), ou encore GR00T N2 (NVIDIA) cherchent à généraliser la commande de robots via des fondations pré-entraînées à grande échelle. L'interprétabilité de ces modèles est devenue un prérequis non négociable pour les déploiements à risque élevé, un angle encore peu adressé face à la course aux benchmarks de performance. Les chercheurs identifient plusieurs directions prioritaires : aller au-delà des coordonnées alignées sur l'action, développer des évaluations en boucle fermée plus granulaires, et concevoir des mécanismes d'intervention sûrs. Le code est disponible publiquement sur GitHub (xc-j/Event-SAE).

UELes outils d'interprétabilité VLA présentés pourraient faciliter la conformité aux exigences d'explicabilité de l'AI Act européen pour les systèmes robotiques à haut risque, un angle encore peu adressé par les acteurs européens.

💬 Tout le monde court après les benchmarks VLA, et je vois peu de monde s'inquiéter de la boîte noire. Ce papier prend l'angle inverse et ancre l'interprétabilité dans des événements comportementaux concrets, validé sur robot réel (pas juste en sim), c'est exactement le genre de boulot qu'on attendait. Mauvaise surprise : les interventions agressives révèlent des failles de sécurité sérieuses, et si tu déploies des VLA en prod, ce papier mérite ton attention.

RechercheOpinion
1 source
COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés
163arXiv cs.RO 

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Des chercheurs ont publié sur arXiv (arXiv:2605.17144) une méthode d'inférence baptisée COAST, Contrastive Conceptor Activation Steering, conçue pour améliorer les performances des modèles Vision-Language-Action (VLA) sans nécessiter aucun réentraînement. Le constat de départ est documenté mais rarement quantifié aussi clairement : malgré un pré-entraînement massif sur des corpus web (images, texte, vidéo), les VLA échouent fréquemment sur des tâches robotiques élémentaires. COAST construit ce qu'on appelle des "conceptors", des opérateurs linéaires qui projettent les données vers les composantes principales d'une distribution cible. En pratique, on fournit au système quelques trajectoires de succès et d'échecs pour une tâche donnée ; COAST en extrait des sous-espaces d'activation critiques pour le succès, puis oriente les états latents du modèle vers ces sous-espaces au moment de l'inférence. Testée sur trois architectures distinctes, VLA à flow-matching, VLA autorégressif et Diffusion Policy, la méthode améliore le taux de succès absolu de plus de 20 points en simulation et de plus de 40 points sur robot réel. Ces chiffres sont significatifs parce qu'ils suggèrent que les VLA actuels encodent déjà une connaissance pertinente pour la tâche dans leurs représentations internes, mais qu'un goulot d'étranglement dans le décodage de l'action empêche cette connaissance de se traduire en comportement fiable. COAST contourne ce problème sans toucher aux poids du modèle, ce qui le rend compatible avec n'importe quel VLA déployé. Autre observation structurelle importante : les modes d'échec partagent une géométrie commune entre tâches différentes, alors que les représentations de succès restent largement spécifiques à chaque tâche. Cette asymétrie permet de réutiliser des conceptors calibrés sur une tâche pour améliorer les performances sur une tâche nouvelle, sans recalibration. Le travail s'inscrit dans un courant plus large de recherche sur le pilotage des représentations internes (activation steering), initialement développé dans le domaine de l'interprétabilité mécanistique des LLM. Côté robotique, les VLA de référence incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, tous confrontés à ce même écart entre performance en démo et robustesse en déploiement réel. COAST ne rivalise pas avec ces modèles mais s'y greffe en post-traitement. Les auteurs n'annoncent pas de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche, dont la prochaine étape naturelle serait une validation sur des tâches longue-horizon et sur des plateformes humanoïdes à haute dimensionnalité.

💬 +40 points sur robot réel sans retraining, c'est le genre de résultat qui me fait relire le papier deux fois. L'idée centrale est solide : les VLA encodent déjà ce qu'il faut savoir, c'est le passage vers l'action motrice qui bloque, et COAST règle ça en orientant les activations internes au bon endroit. Bon, on est encore loin du déploiement industriel, mais si tu bosses avec Pi-0 ou GR00T en ce moment, cette méthode se greffe directement sur ce que t'as.

RechercheOpinion
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
164arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

RechercheOpinion
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
165arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

RechercheOpinion
1 source
OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches
166arXiv cs.RO 

OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches

Une équipe de chercheurs propose OxyGen, un système de gestion unifiée du cache KV (Key-Value) pour l'inférence des modèles VLA (Vision-Language-Action) sous parallélisme multi-tâches, décrit dans un preprint arXiv (2503.14371). Le travail cible en particulier π₀.₅, le modèle VLA de type Mixture-of-Transformers (MoT) développé par Physical Intelligence, une startup robotique fondée en 2023 par d'anciens chercheurs de Google et DeepMind. Sur un GPU NVIDIA GeForce RTX 4090, OxyGen atteint jusqu'à 3,7 fois la vitesse d'exécution par rapport à un système isolé classique, tout en maintenant simultanément un débit de plus de 200 tokens/s en génération de langage et une fréquence d'action de 70 Hz. Ces résultats ont également été validés sur un robot humanoïde physique embarquant un Jetson AGX Thor, la carte de calcul ciblée par NVIDIA pour les déploiements robotiques edge. Le problème que résout OxyGen est concret : lorsqu'un agent robotique doit exécuter simultanément plusieurs tâches (manipulation, conversation, mise à jour mémoire) à partir d'une même observation visuelle partagée, les systèmes d'inférence existants recalculent indépendamment le cache KV pour chaque tâche, générant une redondance coûteuse et une contention de ressources. Les auteurs identifient la gestion isolée des caches KV comme la cause racine et proposent deux optimisations clés : le partage cross-tâches du cache KV, qui élimine le recalcul des tokens d'observation lors du prefill, et le batching continu inter-frames, qui désolidarise la génération de langage à longueur variable de la génération d'actions à cadence fixe. Cette architecture est particulièrement structurante pour les intégrateurs qui cherchent à déployer des VLAs sur du matériel embarqué sans recourir à des serveurs GPU distants, un verrou majeur pour la commercialisation des robots à intelligence embarquée. Les modèles VLA de type MoT, dont π₀ (publié en octobre 2024) et π₀.₅ sont les représentants les plus visibles, routent les sorties hétérogènes vers des blocs transformer spécialisés tout en partageant un encodeur d'observation commun, ce qui rend techniquement possible le partage de cache KV inter-tâches proposé par OxyGen. Sur le plan concurrentiel, ce type d'optimisation d'inférence concerne aussi les VLAs de Google DeepMind (Gemini Robotics), OpenVLA, ainsi que les projets internes de Tesla pour Optimus Gen 3. Il s'agit à ce stade d'une contribution de recherche sans déploiement industriel annoncé, mais la validation sur robot réel avec Jetson AGX Thor embarqué indique une trajectoire claire vers le déploiement on-device à grande échelle.

RechercheOpinion
1 source
IA incarnée en chimiste quantique : Qumus automatise la recherche sur les matériaux quantiques
167arXiv cs.RO 

IA incarnée en chimiste quantique : Qumus automatise la recherche sur les matériaux quantiques

Qumus est un système d'intelligence artificielle incarnée capable de conduire de façon autonome des expériences en science des matériaux quantiques. Présenté dans un preprint arXiv (2605.18407) en mai 2026, il opère physiquement dans un mini-laboratoire robotisé et revendique le statut de premier agent IA couvrant l'intégralité d'un cycle expérimental scientifique : génération d'hypothèses, planification de protocoles, exécution physique multi-étapes, analyse des résultats et rédaction de rapports. Le système multi-agents et multimodal a accompli deux premières annoncées : la création autonome de graphène et la fabrication de nanodispositifs complexes, dont des transistors à effet de champ (FET) atomiquement minces obtenus par empilement van der Waals (vdW). Qumus intègre une correction d'erreurs autonome et une boucle fermée d'expérimentation. Ces résultats adressent un verrou identifié de longue date : combiner raisonnement de haut niveau, traitement multimodal et exécution physique dans un laboratoire réel. La fabrication de matériaux 2D et de structures vdW exige une précision nanométrique et une adaptation constante aux variations expérimentales, deux points où les pipelines d'automatisation classiques achoppent. Si les performances annoncées se confirment, ce serait une démonstration que les modèles vision-langage-action (VLA) peuvent opérer dans des domaines scientifiques exigeants, au-delà des tâches de manipulation générique. À noter cependant : le preprint n'a pas encore été soumis à une revue par les pairs, ce qui invite à la prudence avant d'extrapoler sur la robustesse et la reproductibilité des résultats présentés. Le graphène, découvert par Novoselov et Geim (Nobel 2010), reste un matériau pivot pour l'électronique de nouvelle génération, mais sa fabrication en dispositifs vdW empilés est un goulot d'étranglement reconnu dans les laboratoires spécialisés. Plusieurs initiatives de "self-driving labs" coexistent dans ce domaine, notamment le système Coscientist publié dans Nature en 2023 et les travaux du groupe Aspuru-Guzik à Toronto. Qumus se distingue par son intégration physique complète et son focus sur les matériaux quantiques 2D plutôt que sur la chimie moléculaire. Les prochaines étapes attendues incluent une validation externe des résultats et une extension potentielle à d'autres familles de matériaux bidimensionnels.

RechercheOpinion
1 source
EpiCache : gestion du cache KV épisodique pour les conversations longues sur appareils à ressources limitées
168Apple Machine Learning 

EpiCache : gestion du cache KV épisodique pour les conversations longues sur appareils à ressources limitées

Des chercheurs ont présenté EpiCache, une nouvelle méthode de gestion de la mémoire cache pour les grands modèles de langage (LLM) conçue pour fonctionner sur des appareils aux ressources limitées. Le système s'attaque à un problème précis : lorsque les LLM maintiennent de longues conversations, le cache KV (Key-Value), qui stocke les calculs intermédiaires pour éviter de les recalculer, grossit de manière linéaire avec la longueur de l'historique. Sur des appareils comme les smartphones ou les ordinateurs grand public, cette croissance fait rapidement dépasser les limites de mémoire disponible. Le problème des approches existantes est double. D'abord, la plupart des méthodes de compression n'élaguent le cache qu'après avoir traité l'intégralité du contexte, ce qui entraîne un pic de consommation mémoire non maîtrisé. Ensuite, les techniques d'éviction basées sur la requête en cours restreignent la sémantique du cache à une seule question, rendant le système incapable de maintenir une cohérence conversationnelle sur le long terme. EpiCache contourne ces limites en découpant l'historique en épisodes gérés indépendamment, ce qui permet un contrôle précis de l'empreinte mémoire à tout moment. L'enjeu est stratégique pour la démocratisation de l'IA conversationnelle. Les fournisseurs comme Google, OpenAI et Anthropic repoussent les fenêtres de contexte vers le million de tokens, mais cette course aux capacités reste largement inaccessible hors de l'infrastructure cloud. EpiCache s'inscrit dans un mouvement plus large visant à faire tourner des modèles performants en local, sur des terminaux personnels, sans sacrifier la qualité des échanges longs.

RecherchePaper
1 source
La tendance de la descente de gradient stochastique à privilégier les basses fréquences, et comment Adam y remédie
169MarkTechPost 

La tendance de la descente de gradient stochastique à privilégier les basses fréquences, et comment Adam y remédie

Lorsqu'un grand modèle de langage s'entraîne sur des textes réels, il rencontre un problème silencieux mais décisif : certains mots comme "the" apparaissent dans presque chaque phrase, tandis que des termes rares comme "thalweg" peuvent ne jamais apparaître dans des milliers de batchs successifs. Avec l'algorithme SGD (Stochastic Gradient Descent), chaque paramètre du réseau reçoit le même taux d'apprentissage fixe. Résultat : les paramètres associés aux tokens fréquents convergent rapidement vers leurs valeurs cibles, tandis que ceux liés aux tokens rares restent proches de leur initialisation aléatoire, faute de recevoir suffisamment de signal d'entraînement. Pour quantifier ce phénomène, des chercheurs ont construit une expérience contrôlée en NumPy avec un vocabulaire de six tokens dont les fréquences d'apparition varient sur quatre ordres de grandeur, allant de 95 % par batch pour "the" à seulement 0,1 % pour "thalweg". En entraînant le même modèle linéaire deux fois, une fois avec SGD et une fois avec Adam, sur 3 000 étapes avec un learning rate de 0,05 et des batchs de 32 échantillons, l'expérience rend visible ce biais de fréquence dans des conditions parfaitement isolées. L'enjeu est considérable pour l'entraînement des modèles de langage modernes. Si SGD laisse les paramètres des tokens rares sous-optimisés, le modèle final sera systématiquement moins précis sur les concepts peu fréquents, précisément ceux qui sont souvent les plus spécialisés et les plus utiles. L'optimiseur Adam résout ce problème non pas principalement grâce au momentum qu'on lui attribue habituellement, mais grâce à la normalisation par la variance : il maintient pour chaque paramètre un historique de ses statistiques de gradient et ajuste dynamiquement la taille des mises à jour en fonction de la régularité du signal reçu. Un paramètre rarement mis à jour obtient automatiquement un taux d'apprentissage effectif plus élevé, ce qui lui permet de rattraper son retard. Dans l'expérience, tous les vrais poids cibles sont fixés à 1,0 pour tous les tokens, éliminant toute différence sémantique et révélant le pur effet de la fréquence sur la dynamique d'optimisation. Ce travail éclaire pourquoi Adam est devenu l'optimiseur standard pour entraîner les LLMs, là où SGD reste courant pour la vision par ordinateur sur des distributions plus équilibrées. Le phénomène de biais de fréquence n'est pas anodin : dans un corpus de texte naturel, la distribution des tokens suit une loi de Puissance (loi de Zipf), ce qui signifie que l'écart entre tokens fréquents et rares est encore plus extrême que dans cette expérience. Des alternatives à Adam comme Adagrad et RMSProp partagent le même mécanisme d'adaptation, chacune avec ses propres compromis sur la mémoire et la vitesse de décroissance. Comprendre ce mécanisme fondamental permet aux praticiens de faire des choix d'optimiseur éclairés et d'interpréter les comportements d'entraînement plutôt que de les subir.

RecherchePaper
1 source
Starchild-1 : voici l’IA multimodale qui comprend le monde comme jamais auparavant
170Le Big Data 

Starchild-1 : voici l’IA multimodale qui comprend le monde comme jamais auparavant

La société Odyssey a présenté le 18 mai 2026 Starchild-1, qu'elle décrit comme le premier "world model" multimodal en temps réel. Contrairement aux générateurs d'images ou de vidéos classiques, ce système produit simultanément du contenu visuel et sonore, en s'adaptant en continu aux actions de l'utilisateur. Là où un outil traditionnel calcule une séquence complète avant de l'afficher, Starchild-1 modifie à la volée les scènes, les sons ambiants et les dialogues au fil des interactions. Pour tenir ce pari techniquement difficile, la vidéo et l'audio ne fonctionnent pas au même rythme et peuvent se désynchroniser, Odyssey affirme avoir conçu une architecture inédite capable de maintenir la cohérence entre les deux flux, même lors de sessions prolongées. L'enjeu dépasse la prouesse technique : si les performances annoncées se confirment, Starchild-1 changerait la nature même de ce qu'on appelle un générateur d'IA. On passerait d'un outil de production de contenu statique à un moteur de simulation interactif, capable de prédire comment un environnement évolue naturellement. Les applications ciblées par Odyssey couvrent des domaines très concrets : le jeu vidéo, où des mondes entiers pourraient être générés à la volée sans assets précalculés ; la robotique, pour permettre à des machines d'interagir dynamiquement avec leur environnement ; l'éducation, avec des simulations qui réagissent en temps réel aux choix de l'élève ; et la santé, sans que des cas d'usage précis n'aient encore été détaillés. Pour les développeurs de ces industries, disposer d'un modèle qui "comprend" la logique physique et sonore du monde représente un saut qualitatif potentiellement significatif. Odyssey s'inscrit dans une tendance plus large qui pousse les labos d'IA au-delà du traitement de texte et de l'image fixe, vers des systèmes qui modélisent la causalité et la dynamique du monde réel, ce que les chercheurs appellent des "world models", un concept popularisé notamment par Yann LeCun chez Meta comme prochaine frontière de l'intelligence artificielle. Plusieurs acteurs, dont Google DeepMind et des startups spécialisées dans la simulation, explorent cette direction. Starchild-1 est pour l'instant présenté sous forme de démonstration, sans accès public ni benchmarks indépendants publiés, ce qui invite à la prudence : l'industrie de l'IA a une longue tradition d'annonces spectaculaires dont les délais de concrétisation s'avèrent bien plus longs que prévu. La prochaine étape sera de voir si Odyssey ouvre l'accès à des testeurs externes et si les performances tiennent à l'échelle, hors conditions de laboratoire.

RechercheOpinion
1 source
GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation
171arXiv cs.RO 

GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation

Des chercheurs ont publié sur arXiv (référence 2605.15836) une méthode baptisée GAP (Geometric Anchor Pre-training), conçue pour améliorer l'apprentissage visuomoteur en manipulation robotique à partir d'un très faible nombre de démonstrations d'experts. L'approche repose sur une étape de pré-entraînement légère et sans actions, qui régularise l'adaptateur spatial d'un modèle de vision pré-entraîné (Vision Foundation Model, VFM) avant la phase d'imitation proprement dite. Cette étape de préchauffage entraîne la couche de pooling à produire des points-clés géométriquement stables, ancrés sur les objets, couvrant leur étendue spatiale et reproductibles dans le temps, à partir de masques simulés disponibles sans coût d'annotation. Le VFM reste gelé tout au long du processus. Évaluée sur les benchmarks RoboMimic et ManiSkill dans des conditions de pénurie sévère de données (15 à 50 démonstrations), GAP atteint 62 % de taux de réussite sur la tâche RoboMimic Can avec seulement 15 démonstrations (soit +16 points par rapport à la méthode AFA), 63 % sur la tâche longue et haute précision Tool Hang avec 50 démonstrations, et 61 % sur ManiSkill StackCube avec 30 démonstrations (+11 points face au fine-tuning complet). L'enjeu est considérable pour le déploiement industriel des robots manipulateurs : collecter des milliers de démonstrations humaines reste coûteux et difficile à mettre à l'échelle. GAP cible explicitement le régime peu de données (few-shot imitation learning) en corrigeant un défaut structurel des pipelines actuels. L'adaptateur spatial, censé extraire les caractéristiques pertinentes pour le contrôle depuis des représentations visuelles génériques, tend à s'accrocher à des raccourcis visuels non pertinents lorsqu'il est entraîné avec peu d'exemples, et perd son ancrage géométrique au moindre changement de scène. En forçant cet adaptateur à produire des ancres stables via une tâche proxy simulée, GAP améliore la robustesse aux perturbations de domaine, un problème bien documenté dans la littérature VLA. L'étape de pré-entraînement est entièrement découplée des tâches en aval, ce qui signifie qu'elle peut être réutilisée sans modification pour différentes compétences de manipulation, réduisant le coût marginal d'adaptation à de nouveaux environnements. Ce travail s'inscrit dans la dynamique récente d'intégration des Vision Foundation Models (tels que DINOv2 ou SigLIP) dans les pipelines de robotique, où le gel du backbone et l'adaptation légère par pooling spatial sont devenus une pratique courante pour limiter le besoin en données. GAP se positionne directement face aux poolers à base d'attention comme AFA (Attention Feature Aggregation), qu'il surpasse sur l'ensemble des benchmarks testés, ainsi que contre le fine-tuning bout-en-bout. Point de vigilance : toutes les expériences sont conduites en simulation, et aucune validation sur hardware physique n'est reportée, ce qui laisse ouverte la question du transfert sim-to-real à grande échelle. Aucun calendrier de déploiement ni partenariat industriel n'est mentionné. Les équipes européennes travaillant sur la manipulation à faibles données, notamment autour de l'INRIA ou des laboratoires de robotique cognitive, pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants.

UELes équipes françaises et européennes travaillant sur la manipulation robotique (notamment autour de l'INRIA et des labos de robotique cognitive) pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants pour réduire drastiquement le coût de collecte de démonstrations.

💬 15 démonstrations pour apprendre une tâche de manipulation, là où les pipelines classiques en réclament des milliers, c'est le chiffre qui compte. La méthode est légère, réutilisable entre tâches, et ça se branche directement sur les modèles de vision déjà en place. Tout se passe en simulation pour l'instant, et le transfert sur du vrai hardware reste la question sans réponse.

RechercheOpinion
1 source
Sparse ActionGen : accélération de la politique de diffusion par élagage en temps réel
172arXiv cs.RO 

Sparse ActionGen : accélération de la politique de diffusion par élagage en temps réel

Publiée sur arXiv (identifiant 2601.12894v2), la méthode Sparse ActionGen (SAG) s'attaque au principal frein à l'utilisation en production de la Diffusion Policy : son processus de débruitage multi-étapes, dont la latence est incompatible avec un contrôle visuomoteur temps réel. SAG introduit un mécanisme adaptatif "prune-then-reuse" : à chaque itération du pipeline diffusif, un composant léger conditionné par l'observation courante de l'environnement, le "diffusion pruner", identifie les calculs redondants et les substitue par des activations précédemment mises en cache. La méthode ajoute une stratégie "one-for-all" en zigzag qui mutualise ces caches à la fois sur l'axe des pas de temps et des blocs du réseau. Testée sur plusieurs benchmarks robotiques (non précisés dans le résumé public), SAG annonce une accélération jusqu'à 4x par rapport à la Diffusion Policy standard, sans dégradation de performance mesurée. L'impact potentiel est significatif pour la robotique de manipulation. La Diffusion Policy s'est imposée depuis 2023 comme la méthode de référence pour l'imitation learning à haute précision, grâce à sa capacité à représenter des distributions d'actions multimodales : un robot peut évaluer plusieurs stratégies valides face à une même situation. Mais le débruitage itératif génère une latence qui rend le contrôle en boucle fermée haute fréquence difficile. Les approches existantes (DDIM, consistency models, schedules de cache statiques) contournaient le problème sans s'adapter à la dynamique réelle de l'interaction. La nouveauté de SAG est cet élagage adaptatif au rollout courant. Un facteur 4x sur la vitesse de génération, confirmé sur benchmarks académiques, est un résultat notable, même si les gains restent à valider sur matériel physique en conditions industrielles. La Diffusion Policy a été formalisée par Chi et al. (2023, Columbia University) et intégrée depuis dans des frameworks comme LeRobot de HuggingFace. SAG s'inscrit dans une vague d'optimisations post-entraînement qui cherchent à rendre les politiques génératives compatibles avec le temps réel embarqué sans reprendre un cycle d'entraînement complet, en concurrence avec des approches comme la distillation de consistency models. Aucun partenariat industriel ni déploiement terrain n'est annoncé; la méthode reste au stade de la publication académique, avec une page projet dédiée mais sans code public disponible à ce stade.

UEImpact indirect : HuggingFace (France) intègre la Diffusion Policy dans LeRobot, et une disponibilité future de SAG pourrait accélérer ce framework, mais aucun lien direct ni déploiement européen annoncé à ce stade.

💬 Le problème de latence de la Diffusion Policy, c'était l'éléphant dans la pièce depuis 2023. SAG y répond sans toucher à l'entraînement, juste en élagant les calculs redondants à la volée, et un gain de 4x sur benchmarks c'est pas rien. Reste que le code n'est pas dispo et qu'on n'a aucun test sur matériel réel, donc pour LeRobot et compagnie, c'est à surveiller mais pas encore à intégrer.

RecherchePaper
1 source
Modèle du monde par retour d'information pour guidage précis des politiques de diffusion
173arXiv cs.RO 

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (référence 2605.15705v1) un nouveau paradigme pour améliorer la robustesse des politiques de diffusion en robotique manipulation. Leur approche, baptisée "feedback world model", s'attaque à un problème bien documenté : les modèles de monde (world models) utilisés pour anticiper les conséquences des actions robotiques perdent en fiabilité dès que le robot rencontre des états hors distribution d'entraînement. La méthode maintient un état de retour léger (feedback state) mis à jour en temps réel après chaque action, en exploitant l'observation directe de l'état suivant réel pour corriger itérativement les prédictions futures, sans données d'entraînement supplémentaires ni mise à jour des paramètres du modèle. Les expériences menées sur les benchmarks LIBERO-Plus et Robomimic, ainsi que sur des tâches de manipulation réelles, affichent une réduction de l'erreur de prédiction allant jusqu'à 76,4 % et une amélioration du taux de succès hors distribution (OOD) de 30 %. Les auteurs introduisent également une "action-aware guidance", un mécanisme qui amplifie les composantes de la prédiction contrôlables par l'action tout en supprimant les variations non pertinentes pour le contrôle. Le problème ciblé est structurant pour l'industrie robotique : les systèmes entraînés en simulation ou sur des jeux de données contraints échouent fréquemment en déploiement réel, précisément parce que les états rencontrés divergent de la distribution d'entraînement. La clé du résultat est que cette correction opère entièrement à l'inférence, ce qui la rend directement exploitable sans coût de réentraînement, un atout majeur pour les intégrateurs aux ressources de fine-tuning limitées. Les auteurs formalisent leur méthode comme un observateur en espace latent et en démontrent la convergence sous des conditions modérées, apportant une garantie théorique inhabituelle dans la littérature sur les world models. Cela contredit l'idée reçue selon laquelle la robustesse au distribution shift exige nécessairement plus de données ou un réentraînement ciblé. Les politiques de diffusion constituent depuis 2023 un paradigme dominant en manipulation robotique, adoptées dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures VLA de type GR00T (NVIDIA). Les world models en boucle ouverte associés à ces architectures sont une limite reconnue que des groupes comme Google DeepMind (RT-2) ou des laboratoires académiques cherchent activement à dépasser. Ce preprint, soumis en mai 2025, ne s'accompagne d'aucune annonce industrielle ni de pilote terrain identifié : il reste à ce stade une contribution académique. La prochaine étape naturelle serait une validation sur des robots humanoïdes ou des cellules de manipulation semi-structurées, là où les dérives hors distribution constituent le quotidien opérationnel.

💬 Le point douloureux de toutes les politiques de diffusion, c'est ce moment où le robot sort de sa distribution d'entraînement et part en vrille. Corriger ça à l'inférence, sans réentraîner, c'est exactement ce que les équipes d'intégration attendaient depuis des mois. Bon, c'est un preprint, pas de démo terrain encore, mais 30% de gain en OOD sur Robomimic avec des garanties de convergence, ça mérite qu'on y revienne dans six mois.

RechercheOpinion
1 source
OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique
174arXiv cs.RO 

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.15971) un cadre appelé OHP-RL (Online Human Preference as Guidance in Reinforcement Learning) pour améliorer l'apprentissage par renforcement appliqué à la manipulation robotique en conditions réelles. L'approche introduit une "preference gate" dépendante de l'état du robot, qui détermine dynamiquement quand et dans quelle mesure les interventions humaines doivent influencer l'apprentissage de la politique de contrôle. Contrairement aux méthodes existantes qui traitent ces interventions comme de simples signaux d'imitation, OHP-RL les interprète comme des expressions de préférences relatives entre comportements, intégrant des contraintes de sécurité et de tâche. Le système a été évalué sur trois tâches de manipulation en contact réel sur un robot Franka, où il obtient des taux de réussite élevés, une convergence plus rapide et un volume d'interventions humaines significativement réduit par rapport aux approches antérieures. L'enjeu est bien connu des équipes de robotique industrielle : le RL en environnement réel souffre d'une exploration inefficace et potentiellement dangereuse, ce qui freine son déploiement hors laboratoire. Les méthodes humain-dans-la-boucle existantes comme HIRL ou IWR exploitent les corrections humaines comme des démonstrations à imiter, une hypothèse qui surestime la précision et la cohérence des opérateurs réels. OHP-RL change de paradigme en traitant l'intervention non pas comme une action idéale à reproduire, mais comme un signal de préférence entre deux comportements, ce qui correspond mieux à la réalité opérationnelle. Un opérateur peu expert ou fatigué génère ainsi un signal utile, et le système tolère une supervision intermittente. Pour un intégrateur ou un responsable de production, cela signifie un coût de supervision réduit pendant l'apprentissage et un déploiement potentiellement plus rapide sur des tâches de manipulation en contact, vissage, assemblage, insertion, que les pipelines de programmation classiques peinent encore à automatiser. OHP-RL se positionne à l'intersection du RLHF (Reinforcement Learning from Human Feedback, popularisé par les LLMs) et du HiL-RL pour la robotique physique, un rapprochement conceptuel qu'explorent aussi Physical Intelligence avec pi0, Google DeepMind sur les plateformes Aloha et Franka, et plusieurs labos académiques travaillant sur les VLA (Vision-Language-Action models). L'utilisation du Franka Research 3, référence académique mondiale, facilite la comparaison directe avec ces concurrents. Le papier reste un preprint arXiv sans revue par les pairs confirmée, il convient donc de lire les résultats comme prometteurs plutôt que validés ; les prochaines étapes naturelles seraient une validation sur des bras industriels à plus fort payload et une intégration dans des pipelines de déploiement continu.

UEImpact indirect : les intégrateurs européens spécialisés en manipulation en contact (assemblage, vissage, insertion) pourraient suivre cette approche pour réduire le coût de supervision lors du déploiement de RL en production, sans lien direct avec une entreprise ou réglementation française ou européenne.

RecherchePaper
1 source
Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution
175The Decoder 

Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution

Un consortium de 64 mathématiciens a conçu SOOHAK, un nouveau benchmark destiné à évaluer les capacités des modèles d'IA en mathématiques de recherche. L'outil comprend 439 problèmes rédigés à la main, dont 99 délibérément sans solution valide. Sur les problèmes de niveau recherche, Gemini 3 Pro de Google arrive en tête avec un score de 30 %. En revanche, aucun modèle ne dépasse 50 % lorsqu'il s'agit d'identifier les problèmes insolubles, autrement dit, tous les systèmes testés échouent à reconnaître qu'une question n'a pas de réponse. Ce résultat pointe une faille fondamentale : davantage de puissance de calcul améliore la capacité à résoudre des problèmes, mais n'améliore pas la capacité à admettre qu'un problème est sans issue. Pour un outil censé assister des chercheurs, cette lacune est critique. Un modèle qui répond avec assurance à une question mal posée ou insoluble est potentiellement plus dangereux qu'un modèle qui avoue ses limites, il peut induire en erreur des équipes entières. SOOHAK s'inscrit dans un effort plus large pour dépasser les benchmarks saturés ou trop faciles à "tricher", qui donnent une impression trompeuse des capacités réelles des IA. La communauté scientifique cherche à mesurer non seulement la performance brute, mais aussi la métacognition, savoir ce qu'on ne sait pas. Avec des scores plafonnant à 30 % sur des tâches de recherche authentique, SOOHAK confirme que les modèles actuels restent loin d'un niveau de raisonnement mathématique avancé, malgré les annonces régulières de progrès spectaculaires.

💬 La vraie info ici, c'est pas le 30 % de Gemini, c'est le moins de 50 % sur les problèmes sans solution. Aucun modèle ne sait dire "cette question est mal posée", et c'est exactement le genre de bug silencieux qui peut planter un projet de recherche entier. Reste à voir combien d'équipes scientifiques utilisent ces outils sans savoir ça.

RecherchePaper
1 source
ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul
176FrenchWeb 

ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul

Séoul accueille du 6 au 12 juillet 2026 la 43e édition de l'International Conference on Machine Learning (ICML), l'une des conférences scientifiques les plus influentes au monde dans le domaine de l'intelligence artificielle. Organisée dans la capitale sud-coréenne, cet événement rassemble chaque année des milliers de chercheurs, ingénieurs et représentants de l'industrie venus présenter et débattre des dernières avancées en apprentissage automatique. L'édition 2026 marque la première fois que la conférence se tient en Corée du Sud, témoignant de la montée en puissance de l'Asie dans l'écosystème mondial de la recherche en IA. ICML est un point de convergence incontournable pour la communauté scientifique : les papiers acceptés y définissent souvent les directions de recherche pour les années suivantes. Les grandes entreprises tech, Google DeepMind, Meta AI, Microsoft Research, Anthropic, y dévoilent des travaux qui alimentent directement leurs produits. Pour les chercheurs académiques, une publication à ICML constitue une validation de premier rang, et la conférence sert de baromètre pour identifier les tendances émergentes, des architectures de modèles aux questions d'alignement et d'efficacité computationnelle. Le choix de Séoul s'inscrit dans une dynamique plus large de reconnaissance des pôles asiatiques d'excellence en IA, la Corée du Sud investissant massivement dans ce secteur via des géants comme Samsung et LG, mais aussi via des startups et universités de rang mondial. ICML 2026 devrait notamment concentrer des débats autour des modèles multimodaux, de l'IA générative post-transformeurs et des approches d'apprentissage à faible coût énergétique, des enjeux devenus centraux dans un contexte de pression croissante sur les ressources de calcul.

UELes chercheurs et labos européens participant à ICML bénéficieront des échanges scientifiques, mais la conférence n'a pas d'impact institutionnel direct sur la France ou l'UE.

💬 Séoul pour ICML, c'est un signal que l'Asie est vraiment dans la course, pas juste comme marché. Ce qui m'intéresse surtout, c'est les débats annoncés sur les architectures post-transformeurs et l'efficacité énergétique, parce que le vrai goulot maintenant c'est le coût de calcul, pas les idées. Les papiers ICML dessinent ce qu'Anthropic et Google mettent en prod 18 mois après.

RecherchePaper
1 source
NeurIPS 2026 : la conférence où se joue l’avenir scientifique, industriel et géopolitique de l’IA
177FrenchWeb 

NeurIPS 2026 : la conférence où se joue l’avenir scientifique, industriel et géopolitique de l’IA

NeurIPS 2026 se tiendra du 6 au 13 décembre à Sydney, en Australie, avec deux éditions satellites simultanées à Atlanta et à Paris. Organisée chaque année depuis 1987, la conférence "Neural Information Processing Systems" est l'un des rendez-vous académiques les plus influents du secteur de l'intelligence artificielle, rassemblant chercheurs, ingénieurs et décideurs du monde entier autour des dernières avancées en apprentissage automatique. La formule multi-sites, avec des hubs sur trois continents, confirme l'ampleur croissante d'un événement devenu trop vaste pour un seul lieu. NeurIPS est aujourd'hui bien plus qu'un congrès scientifique : c'est un baromètre de l'état de l'art en IA et un lieu de recrutement stratégique pour les grands laboratoires. Google, Meta, OpenAI, Microsoft ou encore Mistral y exposent leurs travaux, signalent leurs priorités de recherche et captent les meilleurs talents académiques. La présence d'un satellite à Paris souligne par ailleurs la montée en puissance de l'écosystème européen, qui cherche à peser dans une compétition technologique dominée par les États-Unis et la Chine. La conférence s'inscrit dans un contexte de tension géopolitique autour du contrôle des modèles de pointe, des données d'entraînement et des puces spécialisées. Depuis l'émergence des grands modèles de langage à partir de 2022, NeurIPS est devenu un terrain d'observation pour gouvernements et investisseurs autant que pour la communauté scientifique. L'édition 2026 devrait refléter les débats en cours sur la régulation internationale de l'IA, la sécurité des systèmes et la course aux modèles multimodaux de prochaine génération.

UELa tenue d'un hub satellite à Paris pour NeurIPS 2026 offre aux chercheurs et entreprises françaises un accès direct à la conférence de référence mondiale en IA, renforçant la visibilité de l'écosystème européen face aux géants américains et chinois.

💬 Le hub parisien, c'est une bonne nouvelle pour l'éco IA français, même si faut pas se raconter des histoires : le vrai centre de gravité reste à Sydney (et avant ça, dans les labos de San Francisco et Pékin). Ce qui m'intéresse dans cette édition 2026, c'est moins les papers que ce que les grands labos vont choisir de montrer, parce que NeurIPS est devenu autant une vitrine stratégique qu'une conférence scientifique. Reste à voir si Mistral et les européens y font autre chose que de la figuration.

RecherchePaper
1 source
Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes
178MarkTechPost 

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes

Des chercheurs du laboratoire Nous Research ont publié le 12 mai 2026 une méthode baptisée Lighthouse Attention, conçue pour accélérer l'entraînement des grands modèles de langage sur de longues séquences de texte. Testée contre une base de référence cuDNN, elle atteint un gain de vitesse de 1,40 à 1,69 fois en temps réel d'horloge, tout en maintenant une perte d'entraînement finale équivalente ou inférieure. Le mécanisme repose sur un pipeline en quatre étapes : construction d'une pyramide multi-niveaux à partir des projections Q, K et V par pooling moyen, attribution de scores scalaires à chaque entrée via des normes ℓ₂ par tête d'attention, sélection des k entrées les plus pertinentes sur l'ensemble des niveaux de la pyramide, puis exécution du FlashAttention standard sur le sous-ensemble ainsi sélectionné. Toute la sélection s'opère en dehors du kernel d'attention, ce qui permet de réutiliser les implémentations optimisées existantes sans modification. L'enjeu central est économique et technique : l'attention standard scale quadratiquement en Θ(N²) avec la longueur de séquence N, ce qui rend l'entraînement sur de longs contextes extrêmement coûteux en calcul et en mémoire. FlashAttention avait résolu le problème mémoire via un découpage intelligent, mais le coût de calcul restait quadratique. Lighthouse s'attaque directement à ce calcul en réduisant le nombre de paires (Q, K) effectivement traitées, sans sacrifier la qualité du modèle produit. Contrairement aux méthodes d'attention sparse conçues pour l'inférence, Lighthouse s'évalue sur un critère plus exigeant : les poids issus de l'entraînement sparse doivent rester pleinement compatibles avec une inférence en attention dense classique. Ce critère est satisfait, ce qui en fait une méthode applicable directement au pré-entraînement de modèles de production. L'approche de Nous Research se distingue des travaux antérieurs comme NSA, HISA, DSA ou MoBA sur deux points structurels. D'abord, ces méthodes compressent asymétriquement : elles appliquent le pooling uniquement sur les clés et valeurs, laissant les requêtes à pleine résolution. Lighthouse applique le pooling de façon symétrique aux trois projections Q, K et V, produisant des triplets cohérents à chaque niveau de la pyramide. Ensuite, leurs logiques de sélection s'intègrent à l'intérieur même du kernel d'attention, ce qui empêche de réutiliser les kernels denses hautement optimisés pour les GPU modernes. Le top-K utilisé par Lighthouse est délibérément non différentiable, aucun estimateur straight-through, aucun Gumbel softmax, et les gradients ne traversent que les entrées Q, K, V sélectionnées, pas les indices de sélection. Un mécanisme de top-K stratifié par chunks évite en outre l'effondrement de l'attention sur un intervalle étroit, garantissant une couverture équilibrée sur toute la séquence. À mesure que la course aux contextes longs s'intensifie dans l'industrie, des méthodes comme Lighthouse pourraient devenir un composant standard du pré-entraînement.

💬 1,4× à 1,7× sur le pré-entraînement long contexte, c'est le genre de gain qu'on attendait depuis que l'attention quadratique commence vraiment à faire mal au budget. Ce que j'aime, c'est que tu entraînes sparse et tu sers en attention dense classique sans rien modifier à l'archi, donc c'est utilisable directement en prod. Nous Research n'est pas DeepMind, et pourtant ce papier est propre.

RecherchePaper
1 source
RecursiveMAS accélère l'inférence multi-agents de 2,4x et réduit l'usage des tokens de 75 %
179VentureBeat AI 

RecursiveMAS accélère l'inférence multi-agents de 2,4x et réduit l'usage des tokens de 75 %

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign et de l'Université Stanford ont développé RecursiveMAS, un nouveau cadre pour systèmes multi-agents qui multiplie la vitesse d'inférence par 2,4 et réduit l'utilisation de tokens de 75 %. Le principe central est de remplacer la communication textuelle entre agents par des échanges dans l'espace des représentations latentes (embeddings). Concrètement, plutôt que chaque agent génère du texte que le suivant doit lire et interpréter, les agents se transmettent directement leurs représentations vectorielles internes, évitant toute génération de tokens intermédiaires. Le système s'inspire des modèles de langage récursifs, dans lesquels un ensemble de couches partagées traite les données en boucle pour approfondir le raisonnement sans ajouter de paramètres. Dans RecursiveMAS, chaque agent joue le rôle d'une couche : il reçoit une représentation latente, la traite, puis la passe au suivant. Après le dernier agent, les sorties sont renvoyées au premier, déclenchant un nouveau cycle de raisonnement. Seul l'agent final produit un texte à la dernière itération. Les expériences montrent des gains de précision sur des domaines exigeants comme la génération de code, le raisonnement médical et la recherche d'information. L'impact de cette architecture est direct et mesurable pour les équipes qui développent ou déploient des systèmes d'IA complexes. Une accélération de 2,4 fois de l'inférence et une réduction de 75 % des tokens utilisés signifient des coûts de calcul et d'API considérablement réduits à l'échelle. RecursiveMAS est également nettement moins coûteux à entraîner que les méthodes classiques de fine-tuning complet ou les approches LoRA, ce qui en fait une option viable pour des équipes aux ressources limitées. En permettant d'entraîner l'ensemble du système comme une unité cohérente plutôt que comme une collection d'agents isolés, le cadre ouvre la voie à des systèmes capables de s'adapter et de s'améliorer collectivement au fil du temps, sans les goulots d'étranglement typiques de la génération séquentielle de texte. Les systèmes multi-agents ont émergé comme une réponse aux limites des modèles de langage individuels face à des tâches complexes nécessitant coordination, vérification ou spécialisation. Mais leur passage à l'échelle bute sur un problème fondamental : la communication par texte impose une séquentialité coûteuse, chaque agent devant attendre que le précédent ait terminé de générer sa réponse avant de commencer sa propre analyse. Des approches comme le prompt engineering ou le fine-tuning individuel n'adressent qu'une partie du problème. RecursiveMAS propose une rupture architecturale en traitant le système entier comme un seul modèle récursif unifié. Si les résultats expérimentaux se confirment en conditions réelles, cette approche pourrait redéfinir la manière dont les architectures multi-agents sont conçues et optimisées, avec des implications importantes pour l'IA appliquée à la médecine, au droit, à la programmation et à la recherche scientifique.

UELes équipes européennes développant des pipelines multi-agents pourraient bénéficier indirectement de réductions de coûts de calcul si cette architecture de recherche est adoptée et intégrée dans des frameworks open source.

💬 Passer les embeddings directement entre agents plutôt que de générer du texte à chaque étape, c'est une idée qui aurait dû arriver il y a deux ans. 75 % de tokens en moins et 2,4x plus vite sur du code et du raisonnement médical, c'est pas du flan. Bon, sur le papier c'est Illinois et Stanford, mais faut que LangGraph ou un équivalent s'en empare pour que ça compte vraiment en prod.

RecherchePaper
1 source
Notes complémentaires sur la délégation à l'IA et la fiabilité à long terme
180Microsoft Research 

Notes complémentaires sur la délégation à l'IA et la fiabilité à long terme

Une équipe de chercheurs vient de publier une étude intitulée "LLMs Corrupt Your Documents When You Delegate", qui examine la fiabilité des modèles de langage lorsqu'on leur confie des tâches longues et répétées sur des fichiers importants. Le protocole d'évaluation, baptisé DELEGATE-52, soumet les modèles à des séquences de transformations et d'inversions appliquées à des documents, des feuilles de calcul, du code ou des fichiers structurés, sans supervision humaine entre chaque étape. Les résultats sont significatifs : sur 20 itérations de délégation, les meilleurs modèles du marché affichent une dégradation de la fidélité sémantique comprise entre 19 et 34 %. Exception notable, les flux de travail en Python se montrent bien plus robustes, avec une dégradation inférieure à 1 % en moyenne. Les erreurs mesurées portent sur le contenu sémantique réel des artefacts, et non sur des différences de mise en forme ou de style. Ces chiffres interpellent, mais leur portée exacte mérite d'être précisée. La recherche ne mesure ni le taux de complétion des tâches, ni la satisfaction des utilisateurs : elle se concentre exclusivement sur l'intégrité du contenu sur la durée. Or, dans les environnements de production actuels, des mécanismes comme les boucles de vérification, l'orchestration multi-agents et les outils spécialisés par domaine permettent déjà d'atténuer ces effets. L'enjeu concret est ailleurs : les bonnes performances d'un modèle sur des tâches courtes ne garantissent pas une exécution fiable sur des workflows longs et peu supervisés, ce qui a des implications directes pour les entreprises qui automatisent des processus critiques impliquant des documents financiers, juridiques ou techniques. Ce travail s'inscrit dans un débat plus large sur le fossé entre les scores obtenus par les modèles sur des benchmarks standardisés et leur comportement réel dans des contextes professionnels complexes. L'objectif des chercheurs n'est pas de décourager le recours à l'IA dans les workflows métiers, mais d'identifier précisément les zones de fragilité qui nécessitent encore des efforts de recherche et d'ingénierie. DELEGATE-52 se veut un outil de diagnostic, une sorte de test de stress pour la délégation longue durée, et non une mesure globale des capacités des modèles. La prochaine étape pour l'industrie sera de concevoir des architectures d'agents capables de maintenir la cohérence sémantique sur de longues séquences d'actions, un problème ouvert qui conditionne la confiance que l'on peut raisonnablement accorder aux assistants IA autonomes.

UELes entreprises européennes automatisant des workflows documentaires critiques (juridiques, financiers, techniques) sont directement exposées à ce risque de dégradation sémantique cumulative dans leurs pipelines d'agents IA peu supervisés.

💬 20 itérations, 19 à 34% de dérive sémantique sur tes documents. Ce que je retiens surtout c'est le contraste avec les workflows Python, quasi intacts à moins de 1%, parce que le code ne tolère pas l'ambiguïté là où le texte laisse toujours une porte ouverte. Tant qu'on n'a pas résolu ça pour le non-structuré, je ne délègue pas un flux critique sans filet.

RecherchePaper
1 source
Les LLM rendus plus rapides sans sacrifier la précision
181Amazon Science 

Les LLM rendus plus rapides sans sacrifier la précision

Des chercheurs ont présenté lors de la conférence internationale ICLR (International Conference on Learning Representations) un nouveau cadre mathématique permettant d'optimiser à la fois la vitesse d'inférence et la précision des grands modèles de langage. Leur constat de départ est frappant : deux modèles ayant exactement le même nombre de paramètres, entraînés sur les mêmes données et atteignant la même précision, peuvent afficher des différences de débit allant jusqu'à 40 % selon leurs choix architecturaux. Ces choix portent sur trois variables concrètes : la taille des représentations internes du modèle (le "hidden size"), le ratio de paramètres alloués aux couches MLP par rapport aux couches d'attention, et une technique appelée "grouped-query attention" (GQA) dans laquelle plusieurs têtes d'attention partagent des matrices clé-valeur. En jouant sur ces leviers sous un budget de paramètres fixe, il est possible de réduire significativement les calculs lors de la génération de texte et d'alléger le cache clé-valeur, principal goulot d'étranglement en mémoire. L'enjeu est considérable pour toute l'industrie du logiciel en temps réel. Les applications web basées sur l'IA, chatbots, assistants, moteurs de recherche augmentés, ne peuvent pas se permettre des latences élevées même si le modèle sous-jacent est plus précis. Jusqu'ici, les équipes d'ingénierie devaient choisir empiriquement leur architecture, sans loi formelle pour guider ces arbitrages. Ce nouveau cadre leur offre une boussole quantitative : pour un budget computationnel donné, il devient possible de prédire quelle configuration architecturale maximisera le débit sans sacrifier la qualité des réponses. Ce travail s'inscrit dans la lignée directe de la "loi Chinchilla", publiée par Google DeepMind en 2022, qui avait établi comment ajuster conjointement la taille d'un modèle et le volume de données d'entraînement pour minimiser la perte à budget fixe. Cette loi, fondatrice dans la discipline, ne disait cependant rien des choix internes d'architecture. Les auteurs comblent ce manque en intégrant ces variables structurelles dans l'équation de scaling, transformant l'architecture en un paramètre de premier rang au même titre que le nombre de paramètres ou les tokens d'entraînement. À mesure que les modèles continuent de grossir et que les coûts d'inférence grimpent, ce type de cadre pourrait devenir un outil de référence pour les équipes qui cherchent à déployer des LLMs performants sans exploser leur facture de calcul.

UELes laboratoires européens comme Mistral AI pourraient directement appliquer ce cadre pour optimiser leurs choix architecturaux et réduire leurs coûts d'inférence sans sacrifier la précision.

💬 C'est le chaînon manquant après Chinchilla. On savait calibrer la taille du modèle et le volume de données, mais les choix architecturaux restaient du bricolage guidé par l'instinct, sans cadre formel pour trancher. 40% de débit en plus sur le même budget de paramètres, c'est le genre de gain qui change vraiment la facture à l'échelle, et Mistral et consorts seraient bien avisés de s'y plonger.

RecherchePaper
1 source
VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique
182arXiv cs.RO 

VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique

Une équipe de chercheurs propose VER (Vision Expert Transformer), une architecture visuelle publiée sur arXiv sous l'identifiant 2510.05213 (version révisée), dédiée à l'apprentissage de politiques robotiques. Le principe central repose sur une phase de préentraînement durant laquelle plusieurs modèles fondamentaux de vision (VFMs) sont distillés dans une bibliothèque d'experts visuels unifiée. Une fois cette bibliothèque constituée, seul un réseau de routage léger, représentant moins de 0,4 % des paramètres totaux, est ajusté pour chaque tâche aval, sélectionnant dynamiquement les experts pertinents selon la nature de la manipulation à effectuer. L'architecture introduit également une méthode de routage par patch baptisée "Patchwise Expert Routing with Curriculum Top-K Annealing", qui affine progressivement la granularité de la sélection d'experts au fil de l'entraînement. Évalué sur 17 tâches robotiques variées combinées à plusieurs têtes de politique, VER atteint des performances état de l'art sur l'ensemble des benchmarks testés. L'intérêt de cette approche pour les intégrateurs et les chercheurs en robotique tient à deux apports distincts. Les VFMs individuels sont par nature spécialisés : chacun excelle dans un domaine précis (sémantique visuelle, géométrie, correspondance de textures) mais échoue à généraliser sur la diversité des tâches de manipulation. La distillation multi-modèles avec routage dynamique permet d'exploiter des représentations complémentaires sans repartir d'un entraînement complet, réduisant considérablement les coûts de calcul lors de l'adaptation à un nouveau domaine. Par ailleurs, les visualisations produites montrent que VER concentre ses activations sur les régions critiques de la scène, comme l'objet manipulé ou le point de saisie, tout en supprimant les activations parasites en arrière-plan, un problème connu qui dégrade la robustesse des politiques visuelles dans des environnements industriels encombrés. Ce travail s'inscrit dans la dynamique récente d'intégration des modèles fondamentaux dans les pipelines de contrôle robotique, aux côtés d'architectures comme Octo, OpenVLA ou pi-0 de Physical Intelligence, toutes confrontées au gap entre préentraînement généraliste et déploiement sur robot physique. Les approches concurrentes de type VLA (Vision-Language-Action) partagent cet objectif de réduction du coût d'adaptation domaine-vers-robot, mais impliquent généralement un réentraînement bien plus lourd. VER se distingue par la fraction infime de paramètres ajustés lors du fine-tuning, ce qui le rend potentiellement compatible avec des contraintes matérielles embarquées. Les codes et visualisations sont accessibles sur la page projet des auteurs. À ce stade, il s'agit d'un résultat académique pur : aucun partenariat industriel ni calendrier de déploiement commercial n'est mentionné.

💬 0,4 % des paramètres à ajuster pour adapter le modèle à une nouvelle tâche robotique, c'est le chiffre qui change tout dans cette approche. Là où les VLA classiques comme OpenVLA ou pi-0 demandent un réentraînement costaud, VER distille plusieurs modèles de vision en amont et laisse un routage minuscule faire le tri à l'inférence, ce qui rend l'adaptation embarquée enfin envisageable sans cluster de GPUs. Résultat académique pur pour l'instant, mais ce type de travail finit généralement en prod 18 mois plus tard.

RechercheActu
1 source
Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action
183arXiv cs.RO 

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

Une équipe de recherche a publié Pelican-Unified 1.0 (arXiv 2605.15153), un modèle de fondation incarné qui intègre dans un seul checkpoint quatre capacités habituellement confiées à des modules distincts : compréhension visuelle, raisonnement, imagination et génération d'actions robotiques. L'architecture repose sur un unique VLM (Vision-Language Model) qui encode scènes, instructions et historiques d'actions dans un espace sémantique partagé. Ce même VLM génère en un seul forward pass des chaînes de pensée orientées tâche, projetées dans une variable latente dense. Un module baptisé Unified Future Generator (UFG) conditionne ensuite sur cette latente pour produire simultanément vidéos futures et séquences d'actions via deux têtes de sortie dans le même processus de débruitage (denoising). Les performances annoncées : 64,7 sur huit benchmarks VLM standards (meilleur parmi les modèles de taille comparable), 66,03 sur WorldArena (premier rang) et 93,5 sur RoboTwin (deuxième meilleure moyenne parmi les méthodes comparées). L'article est déposé en preprint, sans validation par les pairs à ce stade. L'enjeu architectural est direct : les systèmes robotiques avancés actuels reposent quasi universellement sur des experts spécialisés distincts pour percevoir, raisonner, planifier et exécuter. Ce papier cherche à démontrer qu'un modèle unique, optimisé conjointement sur des pertes de langage, vidéo et action, peut égaler ces spécialistes sans compromis de performance. Si ces résultats se confirment hors simulation, l'impact pour les intégrateurs est double : un seul checkpoint à maintenir et une meilleure généralisation inter-tâches. Le couplage imagination-action dans le même processus de débruitage rappelle l'approche de Physical Intelligence avec Pi-0.5, mais l'intégration du raisonnement textuel dans la même passe constitue un degré d'unification plus poussé. Le score sur RoboTwin reste néanmoins un indicateur sim-to-real à valider en conditions réelles. La course aux modèles VLA (Vision-Language-Action) s'est accélérée en 2024-2025 avec Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA, et les modèles RT-X de Google DeepMind, chacun maintenant des composants partiellement séparés pour la planification et la génération motrice. Pelican-Unified 1.0 se positionne comme une alternative radicalement unifiée, mais reste au stade académique : aucun déploiement, aucun partenariat industriel annoncé, et l'équipe auteure n'est pas identifiée dans le résumé public, ce qui limite l'évaluation de la crédibilité institutionnelle. La revendication de "premier modèle unifié" mérite d'être nuancée, plusieurs architectures combinant déjà compréhension et action. Les prochaines étapes naturelles passent par une validation sur des benchmarks en conditions réelles et une soumission à CoRL ou ICRA.

RechercheOpinion
1 source
XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées
184arXiv cs.RO 

XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées

Une équipe de recherche a publié XR-1 (X Robotic Model 1), un cadre d'apprentissage pour modèles vision-langage-action (VLA) conçu pour opérer sur des robots hétérogènes, disponible en preprint arXiv sous la référence 2511.02776v2. La contribution centrale est l'introduction des UVMC (Unified Vision-Motion Codes), une représentation latente discrète apprise via un VQ-VAE à double branche qui encode conjointement la dynamique visuelle et le mouvement robotique. L'entraînement suit trois étapes : apprentissage auto-supervisé des UVMC, pré-entraînement guidé par UVMC sur de grands ensembles de données cross-embodiment, puis fine-tuning spécifique à chaque tâche. XR-1 a été validé sur plus de 14 000 rollouts couvrant six morphologies robotiques différentes et plus de 120 tâches de manipulation. Les benchmarks affichent des performances supérieures à celles de π0.5, π0 (Physical Intelligence), RDT, UniVLA et GR00T-N1.5 (NVIDIA), avec une robustesse avérée face aux objets inconnus, variations d'arrière-plan, distracteurs et changements d'éclairage. L'enjeu que XR-1 cherche à résoudre est structurant pour le secteur : la généralisation cross-embodiment, soit la capacité d'un seul modèle à piloter des robots aux morphologies radicalement différentes à partir de données hétérogènes incluant des démonstrations humaines. Les approches précédentes encodaient soit la dynamique visuelle, soit les actions robotiques, rarement les deux conjointement. Le UVMC agit comme représentation intermédiaire unifiée entre observations et actions, réduisant le fossé entre sources de données disparates. Dépasser π0.5 et GR00T-N1.5 sur des évaluations en monde réel plutôt qu'en simulation constitue un signal sérieux, même si les benchmarks VLA restent notoires pour leur sensibilité aux conditions exactes d'évaluation et au choix des tâches de test. XR-1 s'inscrit dans la dynamique de recherche autour des fondations VLA généralisables, accélérée par l'essor des VLM et des grands ensembles de données robotiques publics comme Open X-Embodiment et BridgeData V2. Ses concurrents directs sont Physical Intelligence avec la famille π0/π0.5, NVIDIA Robotics avec GR00T N1.5, et les projets académiques RDT et UniVLA. Il s'agit à ce stade d'un preprint (version 2), pas d'un produit commercialisé : aucun partenariat industriel ni calendrier de déploiement n'est annoncé. La page projet est accessible sur xr-1-vla.github.io.

RechercheOpinion
1 source
MIMIC-D : imitation multimodale pour la coordination multi-agents par politiques de diffusion décentralisées
185arXiv cs.RO 

MIMIC-D : imitation multimodale pour la coordination multi-agents par politiques de diffusion décentralisées

Des chercheurs ont publié MIMIC-D (Multi-modal Imitation for MultI-agent Coordination with Decentralized Diffusion Policies), un framework d'apprentissage par imitation destiné à coordonner plusieurs agents robotiques sur des tâches multi-modales, c'est-à-dire admettant plusieurs solutions valides. La troisième révision de ce préprint arXiv (2509.14159v3) présente une architecture d'entraînement conjoint avec exécution décentralisée : chaque agent apprend une politique à partir d'informations locales uniquement, sans planificateur central ni canal de communication explicite entre agents. Les politiques s'appuient sur des réseaux de diffusion, capables de représenter des distributions de trajectoires complexes et multi-modales là où l'apprentissage par imitation classique tend à moyenner les modes ou à n'en sélectionner qu'un seul. Des validations en simulation et sur matériel réel sont rapportées, avec des améliorations annoncées sur les baselines état de l'art, sans que des métriques chiffrées précises ne soient publiées dans le résumé. L'enjeu opérationnel est direct : les frameworks multi-agents existants supposent généralement une communication permanente entre robots ou un orchestrateur global, une hypothèse irréaliste en conditions industrielles où le réseau peut être instable, les équipements hétérogènes, et des opérateurs humains présents dans la boucle. MIMIC-D vise à produire une coordination implicite émergente à l'entraînement, sans échange de messages à l'exécution. Pour les intégrateurs ou les COO de sites logistiques et de fabrication, cette approche ouvre la voie à des fleets hétérogènes capables de gérer des variantes de tâches sans reconfiguration centrale, un problème courant dès que les processus sont peu standardisés. Ce travail prend place dans la dynamique post-diffusion appliquée à la robotique, après les résultats de Pi-0 (Physical Intelligence) et des architectures VLA sur des tâches mono-agent. L'extension au multi-agent reste un chantier ouvert : en production, des systèmes comme ceux d'Exotec ou d'Amazon Robotics s'appuient sur des orchestrateurs centralisés (WMS, MFC), exactement ce que MIMIC-D vise à rendre optionnel. Les approches concurrentes incluent les algorithmes MARL classiques (MAPPO, QMIX) et les travaux récents sur les diffusion policies multi-agents avec communication explicite. Étant un preprint en cours de révision, aucun déploiement industriel n'est annoncé. Les évaluations sur des espaces d'action à plus haute dimensionnalité et en environnement humain réel constituent les prochaines étapes naturelles.

UELes intégrateurs européens de flottes robotiques hétérogènes (logistique, fabrication) pourraient à terme bénéficier d'une coordination décentralisée sans orchestrateur central, mais MIMIC-D reste un preprint de recherche sans métriques publiées ni déploiement industriel annoncé.

RechercheOpinion
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
186MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
187arXiv cs.RO 

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

RechercheOpinion
1 source
Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion
188arXiv cs.RO 

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (ref. 2605.13778) un cadre d'inférence baptisé Realtime-VLA FLASH, conçu pour réduire drastiquement la latence des modèles de type dVLA (diffusion-based vision-language-action). Le problème de départ est précis : chaque cycle d'inférence complète d'un dVLA prend typiquement 58,0 ms, ce qui est incompatible avec un replanning haute fréquence en conditions réelles. FLASH introduit un modèle "brouillon" léger qui génère des propositions d'actions, vérifiées en parallèle par l'Action Expert du modèle principal, composant dédié à la validation des séquences motrices. Un mécanisme de fallback "phase-aware" bascule automatiquement sur l'inférence complète lorsque la proposition brouillon est jugée insuffisamment fiable. Sur le benchmark LIBERO, la latence moyenne par tâche descend à 19,1 ms, soit une accélération de 3,04x, avec des cycles spéculatifs aussi rapides que 7,8 ms. Les auteurs valident également l'approche sur une tâche réelle de tri sur tapis convoyeur, environnement latency-critical par nature. L'intérêt industriel est direct : le goulot d'étranglement des VLA diffusion n'était pas leur capacité à généraliser, mais leur incapacité à répondre à la fréquence de contrôle des robots physiques (typiquement 10-50 Hz). Descendre sous les 20 ms de latence moyenne ouvre la voie à un déploiement sur des manipulateurs industriels ou des robots mobiles opérant en environnement dynamique. Ce que FLASH prouve concrètement, c'est que le "reality gap" des dVLA est au moins partiellement un problème d'architecture d'inférence, pas uniquement de données ou de sim-to-real. La méthode préserve les performances sur LIBERO sans compromis visible sur la fiabilité, ce qui est l'argument le plus solide de la publication, à condition que les auteurs rendent publics leurs taux de succès détaillés par tâche, absents du résumé. Les dVLA sont devenus un axe central de la robotique généraliste depuis les travaux de Physical Intelligence sur pi0 (2024) et de NVIDIA sur GR00T N2, qui reposent tous deux sur des architectures diffusion pour la génération d'actions. OpenVLA et d'autres approches autorégressives contournent ce problème différemment, au prix d'une expressivité moindre sur les tâches de manipulation fine. FLASH se positionne comme une surcouche d'optimisation compatible avec les dVLA existants, sans nécessiter de réentraînement complet du modèle principal, ce qui en fait un candidat naturel pour les équipes travaillant sur pi0 ou des architectures dérivées. Les prochaines étapes attendues sont une validation sur des systèmes à plus haute dynamique (robots bimanes, manipulation dextre) et une mesure de la dégradation sur des distributions out-of-distribution, point encore non traité dans cette version préprint.

UELes équipes de R&D européennes travaillant sur des architectures dVLA (dérivées de pi0 ou GR00T N2) pourraient intégrer FLASH comme couche d'optimisation sans réentraînement, mais aucun acteur ou institution français ou européen n'est impliqué dans la publication.

💬 Le vrai blocage des VLA diffusion, c'était pas leur capacité à généraliser, c'était les 58 ms par cycle d'inférence, trop lents pour du contrôle robot en temps réel. FLASH colle un modèle brouillon en avant-poste pour proposer l'action, le modèle principal vérifie en parallèle, et tu descends à 19 ms sans retoucher les poids. Ce que j'y lis surtout, c'est qu'une bonne partie du reality gap était un problème d'ingénierie d'inférence, pas de données ou de sim-to-real.

RechercheOpinion
1 source
FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA
189arXiv cs.RO 

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (2605.13757) une méthode baptisée FrameSkip, conçue pour améliorer l'entraînement des politiques de type Vision-Language-Action (VLA) en sélectionnant les images les plus informatives dans les trajectoires de démonstration robotique. Plutôt que d'échantillonner uniformément chaque frame enregistrée lors de sessions de télé-opération, FrameSkip attribue un score à chaque image selon quatre critères : la variation d'action, la cohérence visuo-motrice, des priors de progression de tâche, et la préservation des transitions de préhenseur (ouverture/fermeture du gripper). Le système réoriente ensuite l'échantillonnage d'entraînement vers les frames à haute valeur informative, selon un ratio de rétention cible fixé à 20 % dans la configuration principale. Sur trois benchmarks standards, RoboCasa-GR1, SimplerEnv et LIBERO, FrameSkip atteint un taux de succès moyen de 76,15 %, contre 66,50 % pour l'entraînement sur trajectoires complètes, soit un gain absolu de 9,65 points de pourcentage en n'utilisant qu'un cinquième des frames uniques. Ce résultat est significatif parce qu'il pointe un problème structurel longtemps ignoré dans la construction des datasets VLA : le déséquilibre temporel de supervision. Les longues phases statiques ou de déplacement libre dominent statistiquement les trajectoires téléopérées, noyant les instants critiques comme l'alignement d'approche, l'établissement du contact et le relâchement. FrameSkip n'exige aucune modification d'architecture, de tête d'action ni d'objectif d'entraînement, ce qui en fait une couche data-curation plug-and-play compatible avec OpenVLA, pi-0 (Physical Intelligence) ou tout autre VLA existant. Pour les équipes qui constituent des datasets coûteux via télé-opération, réduire à 20 % le volume de frames tout en gagnant en performance change directement le calcul coût/performance de collecte de données. Les VLA ont connu une accélération marquée depuis 2023 avec des modèles comme RT-2 (Google DeepMind), Octo (Berkeley), OpenVLA et pi-0 de Physical Intelligence, chacun misent sur des volumes croissants de démonstrations téléopérées. La question de la qualité versus la quantité des données de démonstration est un sujet de recherche actif, avec des approches concurrentes axées sur le filtrage par récompense, le data augmentation ou les trajectoires synthétiques en simulation. FrameSkip prend le parti du filtrage temporel pur, sans génération de données supplémentaires. Les auteurs ne mentionnent pas de déploiement physique hors simulation dans ce preprint, ce qui limite pour l'instant les conclusions au domaine sim-to-sim ; des validations sur hardware réel resteraient à produire pour confirmer le transfert des gains observés.

RechercheOpinion
1 source
AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique
190arXiv cs.RO 

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

Une équipe de chercheurs propose AttenA+, un framework d'entraînement pour modèles de fondation robotiques publié sur arXiv (2605.13548) en mai 2026. Le constat de départ est simple : les modèles Vision-Language-Action (VLA) et World-Action Models (WAM) actuels héritent du paradigme d'entraînement des LLMs, qui traite chaque token -- ici chaque action -- avec le même poids dans la fonction de perte. Or une trajectoire de manipulation robotique n'est pas homogène : les segments à faible vitesse (préhension précise, insertion, contact fin) conditionnent le succès de la tâche, tandis que les phases à haute vitesse (transitions entre positions) tolèrent l'erreur. AttenA+ corrige ce déséquilibre en repondérant dynamiquement la loss d'entraînement via un champ de vitesse inverse, sans modifier l'architecture ni ajouter de paramètres. Sur le benchmark Libero, le modèle OpenVLA-OFT passe de 97,1 % à 98,6 % (+1,5 points) ; FastWAM atteint 92,4 % sur RoboTwin 2.0 (+0,6 points). Des validations sur bras Franka en conditions réelles confirment la généralisation inter-tâches. L'enjeu dépasse les chiffres de benchmark. Le domaine robotique investit massivement dans le scaling -- plus de données, plus de paramètres, plus de compute -- comme levier principal de performance. AttenA+ suggère qu'une partie du plafond actuel des VLA n'est pas liée à la taille du modèle mais à un biais structurel d'optimisation, ignorant la physique de la manipulation. Pour un intégrateur ou un équipementier qui déploie des bras dans des lignes d'assemblage, cela signifie potentiellement de meilleures performances sur des gestes précis (vissage, pick-and-place serré) sans coût de réentraînement supplémentaire -- le framework se greffe sur les backbones existants en plug-and-play. Les VLA ont connu une accélération notable depuis pi0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), mais la majorité des gains publiés reposaient sur l'augmentation de données ou de paramètres. AttenA+ s'inscrit dans une tendance émergente : exploiter les priors structurels des séquences d'action plutôt que brute-forcer le scaling. Les benchmarks utilisés -- Libero et RoboTwin 2.0 -- restent des environnements simulés, et l'expérimentation Franka décrite dans le papier est limitée. La robustesse à des environnements industriels moins contrôlés reste à démontrer. Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans ce preprint académique.

RechercheOpinion
1 source
UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes
191arXiv cs.RO 

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

Une équipe de chercheurs propose UniJEPA (arXiv:2510.10642, troisième révision), un framework de politique robotique généraliste pré-entraîné sur plus d'un million de vidéos de manipulation instruite issues d'internet, puis affiné sur des données collectées directement sur le robot cible. L'architecture repose sur une approche JEPA (Joint Embedding Predictive Architecture) étendue pour modéliser des représentations visuelles continues de haute dimension. Les résultats expérimentaux annoncent un gain de 9 % en environnements de simulation et de 12 % sur des tâches réelles hors-distribution par rapport aux méthodes de référence actuelles. Il s'agit d'un preprint de recherche, pas d'un déploiement industriel. L'enjeu central est un angle mort persistant dans les politiques VLA (Vision-Language-Action) : elles s'appuient soit sur des VLM (modèles de langage visuels, forts en compréhension sémantique) soit sur des modèles génératifs (forts en modélisation de dynamiques visuelles), rarement les deux simultanément. Pour un intégrateur ou un COO industriel, cela se traduit par des politiques qui peinent à s'adapter à un nouvel atelier, un nouvel éclairage ou de nouvelles pièces sans re-collecte de données coûteuse. Le gain de 12 % sur les tâches hors-distribution est précisément la métrique critique ici : elle mesure la capacité de généralisation sans données supplémentaires, le graal opérationnel pour tout déploiement multi-site. UniJEPA répond en apprenant des représentations prédictives continues des futurs états visuels, converties ensuite en tokens d'action, validant l'applicabilité des architectures JEPA, originellement développées par Yann LeCun et son équipe chez Meta AI (I-JEPA, V-JEPA), au domaine de la politique robotique. Ce travail s'inscrit dans un paysage VLA très actif : Pi-0 de Physical Intelligence (combinant diffusion et VLM), OpenVLA, Octo et les modèles RT-X de Google DeepMind constituent les concurrents directs les plus cités. UniJEPA se distingue par son ancrage dans les architectures unifiées compréhension-génération, un territoire également exploré par des modèles comme Janus de DeepSeek. Publié en version 3 sur arXiv, le papier n'a pas encore passé la révision par les pairs d'une conférence de référence (ICRA, CoRL, RSS), ce qui invite à une lecture prudente des chiffres annoncés, dont le contexte exact des benchmarks n'est pas détaillé dans le résumé. Les prochaines étapes naturelles seraient une validation sur des embodiments commerciaux et un benchmark élargi au-delà des simulateurs utilisés dans les expériences actuelles.

RechercheOpinion
1 source
D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action
192arXiv cs.RO 

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2605.13276) un framework distribué baptisé D-VLA, conçu pour entraîner par renforcement les modèles Vision-Language-Action (VLA) à très grande échelle. Le problème central qu'ils adressent est un goulot d'étranglement systémique : lorsqu'on applique du reinforcement learning (RL) à des VLA de plusieurs milliards de paramètres dans un environnement distribué, la simulation physique haute-fidélité et les calculs d'inférence se disputent les mêmes ressources GPU (VRAM, bande passante), ce qui dégrade le débit global. D-VLA répond par trois mécanismes : un "Plane Decoupling" qui isole physiquement les données d'entraînement haute fréquence du contrôle des poids basse fréquence, un pipeline asynchrone à quatre fils d'exécution ("Swimlane") permettant le chevauchement complet des phases de sampling, d'inférence, de calcul de gradient et de distribution des paramètres, et un système dual-pool de gestion VRAM couplé à une réplication "topology-aware". Sur le benchmark LIBERO, le framework surpasse significativement les solutions RL dominantes en débit et en efficacité d'échantillonnage pour des modèles à l'échelle du milliard de paramètres. Des tests de passage à l'échelle trillion de paramètres indiquent une stabilité maintenue et un speedup linéaire. L'enjeu industriel est concret : les modèles VLA sont désormais au coeur des architectures robotiques génériques (manipulation, navigation, planification multimodale), mais leur entraînement par RL reste prohibitif en ressources. Un framework qui résout le conflit simulation/optimisation et atteint un speedup linéaire à l'échelle du trillion de paramètres lève l'un des principaux verrous pour entraîner des agents polyvalents sans multiplier les clusters GPU de façon exponentielle. C'est une brique infrastructure, pas un robot, mais elle conditionne directement la vitesse à laquelle des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les VLA internes de Figure AI peuvent être affinés par RL dans des environnements simulés réalistes. Ce travail s'inscrit dans une course à la scalabilité du RL pour l'embodied AI, où les frameworks existants (IsaacLab, RLlib, sample-factory) n'ont pas été conçus pour les contraintes spécifiques des VLA massifs. Les auteurs ne mentionnent pas d'affiliation institutionnelle clairement identifiable dans l'abstract, et le papier est un preprint non encore évalué par les pairs. Aucun déploiement réel ni partenariat industriel n'est annoncé à ce stade. Les prochaines étapes naturelles seraient une validation sur des tâches robotiques plus complexes que LIBERO et une intégration avec des simulateurs comme Isaac Sim ou MuJoCo à grande échelle.

UELes chercheurs européens en embodied AI pourraient exploiter ce framework pour réduire le coût GPU de l'entraînement RL sur VLA, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RechercheOpinion
1 source
NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement
193NVIDIA AI Blog 

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

NVIDIA et Ineffable Intelligence, le laboratoire d'IA londonien fondé par David Silver, l'architecte d'AlphaGo, ont annoncé un partenariat technique approfondi pour concevoir l'infrastructure nécessaire à l'apprentissage par renforcement à grande échelle. Des ingénieurs des deux sociétés travaillent conjointement sur la construction d'un pipeline d'entraînement optimisé, en démarrant sur la plateforme NVIDIA Grace Blackwell et en préparant l'intégration de la prochaine architecture Vera Rubin, encore inédite. Jensen Huang, fondateur et PDG de NVIDIA, a qualifié les systèmes d'apprentissage continu par expérience de "prochaine frontière de l'IA", tandis que Silver, sorti du mode furtif la semaine dernière seulement avec Ineffable Intelligence, entend pousser ce paradigme bien au-delà de ses applications actuelles. L'enjeu technique est significatif. Contrairement au pré-entraînement classique, qui consomme un jeu de données fixe de textes et d'images humaines, l'apprentissage par renforcement génère ses propres données en temps réel : l'agent agit, observe les résultats, évalue et se met à jour en boucle serrée. Ce mode de fonctionnement impose des contraintes très différentes sur les interconnexions, la bande passante mémoire et l'inférence. S'y ajoutent des formes d'expérience potentiellement étrangères au langage humain, ce qui pourrait nécessiter des architectures de modèles et des algorithmes d'entraînement entièrement nouveaux. Résoudre ces contraintes à l'échelle est ce que visent conjointement les deux équipes. David Silver est l'une des figures centrales de l'apprentissage par renforcement depuis des décennies : il a co-développé DQN chez DeepMind avant de concevoir AlphaGo, le premier programme à battre un champion du monde de go en 2016. Son raisonnement est direct : les chercheurs ont "largement résolu le problème facile de l'IA", soit apprendre à partir de ce que les humains savent déjà, mais le vrai défi reste de construire des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. Ce virage, de la donnée humaine vers la simulation et l'expérience autonome, est au coeur de la mission d'Ineffable Intelligence. Si le partenariat tient ses promesses, il pourrait débloquer une nouvelle génération d'agents capables de progresser dans des environnements complexes sans plafond de données humaines, ouvrant potentiellement des découvertes dans des domaines allant de la recherche scientifique à la robotique.

RecherchePaper
1 source
Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs
194arXiv cs.RO 

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Des chercheurs ont publié sur arXiv (référence 2602.06339, version 2, février 2026) une analyse théorique des hallucinations d'action dans les modèles VLA (Vision-Language-Action), ces architectures de fondation qui promettent une généralisation large pour le contrôle robotique de bout en bout. L'étude, centrée sur les politiques génératives à variables latentes, identifie trois catégories de barrières structurelles qui provoquent des hallucinations, c'est-à-dire des actions générées violant des contraintes physiques du monde réel : une barrière topologique (liée à la topologie de l'espace d'action), une barrière de précision (résolution insuffisante pour les tâches fines), et une barrière d'horizon (dégradation des performances sur les séquences longues). Ces barrières ne sont pas des artefacts d'implémentation corrigeables à la marge, mais des inadéquations structurelles entre l'espace des comportements robots physiquement réalisables et les architectures de modèles courantes. La portée de ce travail dépasse le cadre académique : il fournit des explications mécanistes aux échecs empiriques régulièrement rapportés lors du déploiement de politiques VLA en conditions réelles, et remet en question une hypothèse dominante du secteur selon laquelle les modèles de fondation généralistes résoudraient intrinsèquement le problème de génération d'action en robotique incarnée. Pour les intégrateurs et les équipes R&D industrielles, cela signifie que des phénomènes observés en déploiement, comme des mouvements incohérents, des échecs sur des tâches longues ou des erreurs de précision fine, ont une origine architecturale identifiable, et non pas seulement un déficit de données d'entraînement. Les auteurs soulignent que ces limitations imposent des compromis inévitables, et non des problèmes résolubles uniquement par le scaling ou l'augmentation des datasets. Le champ des VLAs s'est considérablement densifié depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA (open-source) ou encore RT-2 de Google DeepMind, qui font tous le pari d'une politique robotique unifiée entraînée sur des données massives. Cette étude apporte une perspective critique et formalisée dans un domaine encore largement dominé par des démonstrations en environnements contrôlés, souvent sans publication des métriques d'échec. Les auteurs ne proposent pas d'abandonner l'approche générative, mais tracent des directions pour améliorer fiabilité et robustesse sans sacrifier la puissance expressive de ces architectures, un prérequis non négociable pour franchir le seuil du déploiement industriel réel.

UELes équipes R&D françaises et européennes travaillant sur des politiques robotiques VLA (INRIA, CEA-List, startups robotiques) peuvent réévaluer leurs choix architecturaux et ne plus imputer uniquement à un déficit de données les échecs de déploiement observés en conditions réelles.

💬 On sait depuis un moment que les VLAs galèrent en conditions réelles, mais tout le monde imputait ça à des données insuffisantes. Ces chercheurs identifient trois barrières structurelles (topologie, précision, horizon) que le scaling seul ne résoudra pas. Pour les équipes qui pariaient sur "encore plus de données pour y arriver", c'est un mur.

RechercheOpinion
1 source
Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA
195arXiv cs.RO 

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Des chercheurs ont publié mi-mai 2026 sur arXiv (référence 2605.11459) une méthode baptisée "Pace-and-Path Correction" pour corriger un angle mort structurel des modèles VLA (Vision-Language-Action). Ces modèles, socle technique des bras manipulateurs de nouvelle génération, sont entraînés sur des observations à image unique (single-frame), ce qui les rend incapables de percevoir les dynamiques temporelles lors de l'exécution d'une séquence planifiée. En pratique, dès qu'un objet bouge pendant que le robot exécute un "action chunk", les performances chutent sévèrement, même après fine-tuning sur des datasets dynamiques. L'opérateur proposé s'applique à l'inférence sans ré-entraînement, comme une couche wrapper autour de tout VLA à action chunking, et se décompose en deux canaux orthogonaux issus d'une minimisation de coût quadratique unique : un canal "pace" compressant l'exécution le long de la trajectoire prévue, et un canal "path" appliquant un décalage spatial orthogonal pour absorber les perturbations dynamiques dans la fenêtre temporelle du chunk. Évalué sur MoveBench, un benchmark conçu pour isoler le mouvement comme seule variable contrôlée, la méthode améliore le taux de succès de 28,8 points de pourcentage en environnement purement dynamique et de 25,9 points en contexte mixte statique-dynamique, surpassant les VLAs de base ainsi que les approches dynamiques-adaptatives existantes. L'enjeu est directement opérationnel : les VLAs actuels comme pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de Nvidia peinent dès qu'un convoyeur avance ou qu'un opérateur interfère avec la scène, soit le cas standard en environnement industriel réel. Corriger ce "dynamics gap" exigeait jusqu'ici un ré-entraînement coûteux, souvent rédhibitoire pour un intégrateur sans infrastructure ML dédiée. Le caractère training-free de Pace-and-Path Correction signifie qu'elle peut s'intégrer sur un modèle déjà déployé sans modifier les poids ni la pipeline d'apprentissage, abaissant drastiquement la barrière d'adoption pour des déploiements en conditions réelles. La "dynamics-blindness" des VLAs est une critique récurrente depuis l'émergence de pi-0 et OpenVLA en 2024-2025, la majorité des démonstrations publiques ayant lieu sur scènes statiques et laissant ouvert le demo-to-reality gap dès que les conditions industrielles se compliquent. Ce travail s'inscrit dans la course à la manipulation robuste que se livrent Nvidia, Figure (Figure 03), Boston Dynamics et 1X Technologies. Aucun acteur français n'est directement cité, mais les conclusions intéressent des intégrateurs comme Exotec et des équipes de recherche comme le LAAS-CNRS travaillant sur la manipulation en environnement non-structuré. La prochaine étape logique est une validation sur hardware réel - le papier reste à ce stade un benchmark simulé - et une intégration dans des stacks open-source comme LeRobot de Hugging Face.

UELes équipes LAAS-CNRS travaillant sur la manipulation non-structurée et des intégrateurs comme Exotec pourraient adopter cette correction sans ré-entraînement pour améliorer la robustesse de déploiements VLA en environnement industriel dynamique, sans infrastructure ML dédiée.

💬 Le dynamics gap des VLAs, on le connaissait depuis l'émergence de pi-0 : dès qu'un objet bouge pendant l'exécution d'un chunk, c'est la déroute. Ce qui change ici, c'est que la correction s'applique à l'inférence sans toucher aux poids, comme une couche qu'on pose par-dessus n'importe quel modèle déjà déployé. +28 points sur MoveBench, training-free : si ça tient sur hardware réel, les intégrateurs n'ont plus d'excuse pour rester sur des scènes statiques.

RechercheOpinion
1 source
Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée
196arXiv cs.RO 

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

Des chercheurs ont publié en mai 2026 (arXiv:2605.11479) un cadre pour l'évaluation hors-ligne de politiques robotiques de manipulation. Le problème : estimer la performance d'une politique sans la déployer en environnement réel à chaque itération. Les systèmes de manipulation modernes cumulent trois obstacles majeurs : récompenses rares (sparse rewards), progression non monotone vers l'objectif (le robot recule avant de réussir), et rollouts d'évaluation de longueur finie. Cette dernière contrainte génère un biais de troncature qui invalide les méthodes classiques fondées sur l'équation de Bellman, conçues pour un horizon infini. Les auteurs proposent un opérateur de Bellman basé sur la liveness (vivacité, issue de la vérification formelle), reformulant l'évaluation comme un problème de complétion de tâche et produisant une fonction de valeur conservative à point fixe garanti par contraction. Les expériences portent sur deux tâches simulées (une politique VLA - Vision-Language-Action - et une diffusion policy), ainsi qu'un pliage de tissu à partir de démonstrations humaines. La méthode surpasse TD(0) et Monte Carlo sur tous les benchmarks, à la fois en fidélité à la progression réelle et en réduction du biais. L'enjeu est concret pour les équipes de déploiement : les rollouts physiques sont lents et coûteux, et une évaluation hors-ligne biaisée contamine les décisions de sélection de modèle. Le biais de troncature est particulièrement insidieux dans les tâches longues : un bras robotique qui récupère après un glissement peut scorer négativement même s'il complète la tâche. La formulation liveness encode la progression vers l'objectif y compris lors de comportements non monotones, sans horizon infini artificiel. Ce type de métrique calibrée est directement utile pour valider des politiques VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), souvent évaluées sur des rollouts courts et sélectifs avant déploiement en atelier. Ce travail s'inscrit dans une problématique active du robot learning : évaluer des politiques sans simulation parfaite ni horizon infini. TD(0), Monte Carlo et importance sampling peinent sur les tâches longues à récompenses éparses, régime typique de la manipulation dextre. Plusieurs équipes adressent l'évaluation hors-ligne, notamment autour du dataset DROID (Berkeley/Stanford) et chez Physical Intelligence, mais sans traitement explicite du biais de troncature. La preuve de contraction de l'opérateur liveness ouvre des pistes vers des pipelines de sélection automatique de politiques et vers la validation à grande échelle avant passage en production.

RecherchePaper
1 source
DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA
197arXiv cs.RO 

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Une équipe de chercheurs a publié DreamAvoid (arXiv:2605.11750), un framework d'inférence conçu pour réduire les échecs dans les modèles Vision-Language-Action (VLA) lors de tâches de manipulation fine. Le problème est bien documenté : les VLA, entraînés quasi exclusivement sur des démonstrations réussies, accumulent des erreurs mineures pendant les phases critiques d'une tâche (saisie, insertion, positionnement précis) qui s'amplifient jusqu'à rendre toute récupération impossible. DreamAvoid introduit trois composants exécutés à l'inférence : un Dream Trigger qui détecte l'entrée en phase critique, un Action Proposer qui échantillonne plusieurs candidats d'action auprès du VLA, et un Dream Evaluator qui simule à court horizon les futurs correspondants, les évalue, et sélectionne l'action optimale. Ce dernier est entraîné sur un mélange succès/échecs/cas limites via un paradigme dit "autonomous boundary learning". Les évaluations portent sur des tâches de manipulation réelles et des benchmarks de simulation avec une amélioration du taux de succès global, sans que les auteurs ne publient de chiffres précis dans le résumé, ce qui rend la comparaison quantitative impossible en l'état. L'apport clé est architectural : DreamAvoid agit uniquement à l'inférence, ce qui permet de le greffer sur n'importe quel VLA existant sans réentraînement complet. Pour les intégrateurs industriels, c'est un point non trivial : la fragilité en manipulation fine (assemblage, vissage, conditionnement) reste l'un des principaux freins au déploiement réel des bras manipulateurs génériques. Cibler spécifiquement les phases critiques, plutôt que l'ensemble de la trajectoire, limite par ailleurs le surcoût computationnel à l'inférence. Ce travail contredit partiellement l'hypothèse dominante selon laquelle augmenter massivement les données de succès suffit à rendre les VLA robustes : une conscience explicite de l'échec, même injectée post-entraînement, apporte un gain tangible. Le contexte est celui d'une compétition intense entre VLA généralistes incluant Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA de l'UC Berkeley, tous partageant cette fragilité structurelle documentée dans des travaux comme RT-2 et ALOHA. DreamAvoid s'inscrit dans une lignée de méthodes de planification augmentée à l'inférence, proche des approches world model comme SWIM ou de MCTS appliqué à la robotique. Le code est disponible publiquement sur GitHub (github.com/XianzheFan/DreamAvoid). Les suites probables incluent une évaluation sur des benchmarks standardisés tels que RLBench ou LIBERO, et potentiellement une intégration dans des pipelines d'entraînement continu où les échecs détectés par le Dream Evaluator alimentent automatiquement les données négatives futures.

RechercheOpinion
1 source
Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable
198arXiv cs.RO 

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Des chercheurs ont publié en mai 2026 (arXiv:2605.11817) un module baptisé GridS (Differentiable Grid Sampler), conçu pour accélérer les modèles Vision-Language-Action (VLA) sans sacrifier leur précision en manipulation robotique. Le problème ciblé est concret : les VLA actuels, qui fusionnent perception visuelle, compréhension linguistique et planification d'action, sont trop coûteux en calcul pour un déploiement temps réel sur des plateformes embarquées. GridS s'insère dans l'encodeur visuel d'un VLA existant comme un module plug-and-play. Il prédit dynamiquement un ensemble minimal de coordonnées saillantes, puis ré-échantillonne les tokens visuels par interpolation différentiable, permettant de retenir moins de 10 % des tokens originaux. Sur le benchmark LIBERO et une plateforme robotique réelle non précisée dans l'article, les auteurs rapportent une réduction de 76 % des FLOPs sans dégradation du taux de succès, et revendiquent le nombre de tokens visuels actifs le plus bas jamais documenté dans la littérature VLA. Ce résultat, s'il se confirme hors simulation, adresse un verrou pratique majeur : la tension entre richesse de la représentation visuelle et vitesse d'inférence. Les méthodes de pruning par seuillage d'attention suppriment souvent des informations géométriques critiques comme les points de contact ou les bords d'objet, dégradant la précision des saisies. GridS opère différemment via un ré-échantillonnage continu orienté par la tâche, censé préserver la géométrie essentielle même à fort taux de compression. Pour un intégrateur industriel, une réduction de 76 % des FLOPs peut permettre de basculer d'un GPU haut de gamme vers un compute embarqué standard, ou d'augmenter significativement la fréquence de commande d'un bras manipulateur. Réserve importante : les tests portent sur LIBERO, un benchmark de manipulation tabletop majoritairement en simulation, et sur un robot non identifié, ce qui laisse ouverte la question du gap sim-to-real en environnement industriel réel. La recherche s'inscrit dans une course à l'efficacité des VLA où Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) se heurtent au même goulot d'étranglement computationnel lors du passage à l'échelle. GridS se distingue des approches de pruning classiques par sa continuité différentiable, argument clé pour préserver la géométrie fine lors de saisies précises. Le code est publié en open source sur GitHub (Fediory/Grid-Sampler), ce qui facilite l'intégration dans des pipelines VLA existants. La prochaine validation attendue par la communauté concerne des benchmarks plus exigeants, notamment la manipulation d'objets déformables et les environnements encombrés, ainsi que des mesures de latence réelle sur hardware embarqué pour confirmer que la réduction de FLOPs se traduit bien par un gain de vitesse exploitable en production.

RechercheOpinion
1 source
GuidedVLA : spécialisation de l'attention pour cibler les facteurs pertinents d'une tâche dans les modèles VLA
199arXiv cs.RO 

GuidedVLA : spécialisation de l'attention pour cibler les facteurs pertinents d'une tâche dans les modèles VLA

Une équipe de chercheurs propose GuidedVLA, un cadre d'entraînement conçu pour améliorer la robustesse des modèles Vision-Language-Action (VLA) en robotique de manipulation. Publiée sur arXiv (2605.12369) en mai 2026, l'approche repose sur une décomposition fonctionnelle du décodeur d'actions : plutôt que de laisser un bloc monolithique apprendre implicitement ce qui est pertinent dans une scène, GuidedVLA affecte des têtes d'attention spécialisées à des facteurs explicitement définis. Dans cette première instanciation, trois têtes distinctes supervisent respectivement la localisation d'objets (object grounding), la géométrie spatiale, et la logique temporelle des compétences motrices. Les expériences menées en simulation et sur robot réel montrent des gains de taux de réussite aussi bien en conditions connues (in-domain) qu'en conditions non vues lors de l'entraînement (out-of-domain), par rapport à des baselines VLA existantes, sans que les auteurs ne publient de chiffres agrégés dans l'abstract. L'enjeu industriel est direct : les VLA actuels souffrent d'un problème bien documenté de surapprentissage sur des corrélations parasites, raccourcis visuels, bruit de fond, artefacts de jeu de données. Ce phénomène est l'une des causes principales de l'écart démo-réalité qui freine le déploiement en production. En forçant les têtes d'attention à capturer des représentations découplées et sémantiquement définies, GuidedVLA propose une voie vers un meilleur transfert sim-to-real. L'amélioration out-of-domain est particulièrement significative pour les intégrateurs et décideurs industriels : elle indique que le modèle généralise au-delà de ses données d'entraînement, condition nécessaire à tout déploiement en environnement non contrôlé. Les VLA ont émergé dans le sillage des grands modèles de langage, avec des jalons comme RT-2 de Google DeepMind en 2023, puis OpenVLA, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, toutes des architectures qui alignent l'action robotique comme une modalité dans des VLMs pré-entraînés, en pariant que la supervision de bout en bout suffit à isoler les bons facteurs. GuidedVLA remet en question ce pari en injectant de la structure explicite dans le décodeur, une direction qui rejoint certains travaux sur les politiques hiérarchiques. L'architecture se veut plug-and-play, ouvrant la voie à une intégration dans des VLA existants. Le papier reste à ce stade un preprint académique sans annonce de déploiement industriel ni partenariat commercial identifié.

RechercheOpinion
1 source
ForceFlow : apprendre à ressentir et agir grâce à l'apprentissage par flux guidé par le contact
200arXiv cs.RO 

ForceFlow : apprendre à ressentir et agir grâce à l'apprentissage par flux guidé par le contact

Des chercheurs ont publié en mai 2026 sur arXiv (2605.11048) ForceFlow, un framework d'apprentissage par imitation pour la manipulation robotique en contact riche, construit sur le flow matching et l'intégration native du retour de force. L'architecture adopte une fusion multimodale asymétrique où le signal force/couple joue le rôle de régulateur global de la politique, couplé à un paradigme de prédiction jointe exploitant force instantanée et historique de mouvement. La décomposition de tâche s'articule en deux phases : une approche pilotée par un VLM (localisation de cible par pointage visuel), puis un contact piloté par la force, reliées par un mécanisme Vision-to-Force (V2F) qui découple explicitement généralisation spatiale et régulation de contact. Sur six tâches réelles à contact riche, ForceFlow dépasse de 37 points de pourcentage le taux de succès de ForceVLA, le baseline de référence, à coût déclaré inférieur, et démontre une généralisation zero-shot hors distribution (OOD). L'apport principal n'est pas l'ajout d'un capteur force mais sa position architecturale : traiter le signal F/T comme régulateur global (et non comme entrée supplémentaire simplement concaténée) améliore significativement la robustesse en généralisation. Le mécanisme V2F est la clé de voûte en séparant la représentation de l'espace de travail, apprise par vision, de la régulation de contact pilotée par force, ce qui réduit le couplage entre les deux sources d'erreur. La démonstration zero-shot OOD est crédible architecturalement, même si l'abstract ne livre pas les taux de succès absolus du baseline ForceVLA ni le détail des conditions expérimentales, ce qui rend les 37 % d'amélioration relative difficiles à pleinement contextualiser. Ce travail prolonge le courant hybride vision-force apparu dans le sillage de Pi-0 (Physical Intelligence, octobre 2024), qui a popularisé le flow matching pour les politiques robotiques à manipulation dextre. ForceVLA constitue le concurrent direct ; d'autres approches comparables incluent Diffusion Policy avec capteurs F/T et les variantes d'ACT augmentées force. L'institution des auteurs n'est pas identifiable dans le résumé publié, et le preprint n'a pas encore été soumis à peer review. Les prochaines étapes naturelles seraient la mise à disposition du code source et une validation sur plateformes hardware standardisées (Franka, UR5) pour confirmer la reproductibilité des résultats annoncés.

RechercheOpinion
1 source