Aller au contenu principal

Recherche — page 3

671 articles · page 3 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle
101MarkTechPost RecherchePaper

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

Hexo Labs a publié cette semaine SIA (Self-Improving AI), un framework open source sous licence MIT conçu pour dépasser une limite fondamentale des agents actuels : leur incapacité à s'améliorer une fois déployés. L'architecture divise l'agent en deux composants distincts, le scaffold (prompt système, logique de dispatch, politique de retry, code d'extraction) et les poids du modèle, et les modifie tous les deux dans une même boucle d'auto-amélioration. Trois LLM orchestrent ce cycle : un Meta-Agent qui génère le scaffold initial depuis une spécification de tâche, un agent d'exécution qui journalise chaque étape, et un Feedback-Agent tournant sur Claude Sonnet 4.6 qui analyse les trajectoires complètes pour décider de l'action suivante. Ce dernier choisit à chaque itération soit de réécrire le scaffold, soit de déclencher une mise à jour des poids via LoRA (rang 32), en sélectionnant également l'algorithme d'entraînement adapté au signal de récompense observé. Le modèle de base est openai/gpt-oss-120b, entraîné sur GPU H100 via la plateforme Modal. Les tests sur trois domaines radicalement différents montrent des gains constants. Sur LawBench, une tâche de classification criminelle chinoise en 191 classes, le scaffold seul plafonne à 50,0% de précision après avoir construit un pipeline TF-IDF plus LinearSVC ; les mises à jour de poids via PPO font bondir le score à 70,1%, soit un gain de 20,1 points de pourcentage. Sur TriMul, l'optimisation d'un kernel CUDA pour l'Evoformer d'AlphaFold2, le scaffold atteint 1,14x d'accélération, puis les mises à jour réduisent le temps d'exécution de 12 483 à 1 017 microsecondes, soit 91,9% de réduction et 14,02x au total. Pour l'imputation d'ARN monocellulaire, une modification en deux lignes générée dès la première mise à jour des poids, arrondir les comptes imputés à des entiers non négatifs, a suffi à faire passer le MSE normalisé de 0,241 à 0,289, une correction qu'aucune itération de scaffold n'avait trouvée. L'enjeu dépasse la performance brute. Améliorer un agent en production exige aujourd'hui un cycle manuel de prompt engineering, de fine-tuning et de réévaluation, souvent lent et coûteux. SIA propose d'automatiser ce cycle complet, ouvrant la voie à des systèmes capables de s'adapter à leurs propres erreurs sans intervention humaine. Installable via pip install sia-agent avec quatre tâches intégrées, le projet est conçu pour être étendu à de nouveaux domaines. Une limite mérite d'être signalée : sur TriMul, Claude Code a atteint seul 1,50x d'accélération, dépassant SIA-H (1,14x) avant toute mise à jour des poids, ce qui rappelle que les agents de codage avancés constituent déjà une concurrence sérieuse au scaffold seul. La question ouverte reste de savoir si cette boucle d'auto-amélioration tient sur des tâches plus longues et plus complexes, et quelles garanties de sécurité s'imposent lorsqu'un système modifie ses propres poids de façon autonome.

1 source
ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces
102arXiv cs.RO 

ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces

Une équipe de chercheurs a publié le 29 mai 2026 un article préprint sur arXiv (2605.29438) présentant ElegantVLA, un cadre d'inférence adaptatif conçu pour accélérer les modèles de type Vision-Language-Action (VLA) sans modifier ni réentraîner le modèle de base. Le principe repose sur un ordonnanceur léger qui observe en temps réel la similarité des représentations temporelles, les signaux de mouvement du robot et la progression de l'épisode, puis alloue dynamiquement la charge de calcul entre l'encodeur visuel, le LLM et la tête d'action. Deux niveaux de granularité sont gérés : cinq modes de calcul Vision-LLM, allant de la recomputation complète à la réutilisation temporelle multi-pas, et trois modes de débruitage pour la génération d'actions, qui recyclent les états intermédiaires lors des phases de mouvement stable. Sur le modèle GR00T de NVIDIA sur six tâches réelles, ElegantVLA réduit la charge de calcul d'un facteur 2,18x et fait passer la fréquence de contrôle de 13,8 Hz à 26,3 Hz ; sur CogACT, le gain en vitesse atteint 3,77x. L'enjeu est direct pour les équipes qui cherchent à déployer des VLA en manipulation réelle : la fréquence de contrôle est un goulot d'étranglement critique dans les tâches nécessitant une réactivité fine, et doubler cette fréquence sans retoucher le modèle sous-jacent change fondamentalement le rapport coût-performance du déploiement. Le résultat contredit partiellement l'hypothèse dominante selon laquelle accélérer un VLA impose obligatoirement un compromis sur la qualité du raisonnement : en concentrant la puissance de calcul sur les phases sensibles aux objectifs, à l'image du contrôle moteur humain, le système préserve la précision là où elle compte. C'est un argument concret en faveur de l'inférence adaptative plutôt que des modèles distillés ou quantifiés à la hache. Les VLA généralistss comme GR00T (NVIDIA) ou CogACT (Microsoft Research) souffrent structurellement d'un coût d'inférence élevé dû à l'empilement d'un backbone vision-langage massif et d'une tête d'action itérative à chaque pas de contrôle. Les approches existantes d'accélération, élagage, distillation, cache KV statique, traitent tous les pas de contrôle de façon uniforme, ignorant que les besoins en raisonnement varient fortement au cours d'un épisode. ElegantVLA se positionne comme une surcouche plug-in compatible avec l'ensemble de l'écosystème VLA moderne, sans modifier les pipelines d'entraînement. La prochaine étape naturelle sera de valider l'approche sur des tâches longue durée et des environnements non structurés, là où la variabilité des phases est maximale et où le gain potentiel est le plus difficile à quantifier.

RechercheOpinion
1 source
VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA
103arXiv cs.RO 

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (référence 2605.29605) VLAConf, un framework de détection de confiance pour les modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le principe repose sur un module léger ("confidence head") branché sur les représentations internes d'un VLA préentraîné et figé, capable de calculer en un seul passage (single forward pass) un score d'anomalie à chaque étape de la trajectoire. Le système intègre également un mécanisme de "step-conditioned modeling" qui encode la phase d'exécution le long du rollout. Les performances sont évaluées sur le benchmark LIBERO, référence académique pour la manipulation multi-tâches, et validées sur robot physique. L'enjeu est direct pour le déploiement industriel des VLA : anticiper l'échec d'une tâche avant qu'il ne survienne est une condition nécessaire pour les applications à risque, de la chaîne de montage au laboratoire pharmaceutique. Les méthodes existantes souffrent de deux limitations majeures. Les approches par ensembles requièrent des échantillonnages répétés qui pénalisent fortement le temps d'inférence. Les méthodes basées sur les probabilités de tokens d'action sont incompatibles avec les espaces d'action continus, ce qui exclut de facto les VLA les plus récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). VLAConf contourne ces deux obstacles en un seul forward pass, sans modifier l'architecture du modèle hôte, ce qui lui confère une portabilité inter-architectures notable. Les auteurs revendiquent une nette supériorité sur les baselines en termes de qualité du signal de confiance et d'efficacité à l'inférence, bien que les marges précises ne soient pas détaillées dans le résumé disponible. Les VLA connaissent une accélération marquée depuis 2024 : pi-0 de Physical Intelligence, OpenVLA (Berkeley) et GR00T N2 de NVIDIA ont chacun proposé des approches pour généraliser la manipulation en monde ouvert. La robustesse à l'échelle reste cependant le principal frein au déploiement commercial, et la confiance calibrée en constitue une composante critique. VLAConf se positionne comme une brique d'infrastructure transversale, là où ses prédécesseurs restaient cantonnés aux sorties discrètes. Le code source est rendu public. Ce travail est académique, sans partenariat commercial annoncé.

RechercheOpinion
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
104arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

RechercheOpinion
1 source
Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde
105arXiv cs.RO 

Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde

Une équipe de chercheurs propose DUST (DUal-STream diffusion), un framework qui augmente les modèles vision-langage-action (VLA) avec un world model pour améliorer l'apprentissage de politiques robotiques. L'architecture repose sur un transformer de diffusion multimodal qui maintient des flux séparés pour chaque modalité (vision et action) tout en permettant un partage de connaissances inter-modal. Techniquement, DUST introduit des perturbations de bruit indépendantes, une perte flow matching découplée pour apprendre les relations causales entre modalités, et une méthode d'échantillonnage asynchrone des tokens action et vision. Sur les benchmarks simulés RoboCasa et GR-1, DUST affiche des gains allant jusqu'à 6 % par rapport aux meilleures références VLA et world-modeling actuelles, avec une amélioration supplémentaire de 2 à 5 % via le scaling à l'inférence. Sur tâches réelles avec le bras Franka Research 3, le système surpasse les baselines de 10 % en taux de succès. Le point critique ici est la gestion du "modality gap" : prédire simultanément des états visuels futurs et des séquences d'actions est un problème ouvert, car les deux modalités ont des structures temporelles et sémantiques très différentes. DUST contourne ce problème en maintenant des flux distincts plutôt qu'en les fusionnant naïvement, ce qui préserve les propriétés propres à chaque modalité. Le gain de 10 % en conditions réelles est notable, mais reste à interpréter avec prudence : les expériences portent sur un seul robot (Franka Research 3) et les tâches réelles ne sont pas détaillées dans l'abstract, ce qui limite la généralisation. La capacité de transfer learning à partir de vidéos sans annotations d'actions ouvre en revanche une voie concrète pour réduire le coût de collecte de données. DUST s'inscrit dans une vague de travaux qui cherchent à doter les VLA d'une forme de "prévoyance" via des world models, en écho à des approches comme GR-1 (Humanoid VLA de Shanghai AI Lab) ou Pi-0 de Physical Intelligence. La tendance lourde est de combiner la puissance des LLM pour le raisonnement avec des modèles prédictifs du monde physique, pour réduire le sim-to-real gap et permettre une généralisation hors distribution. La prochaine étape logique serait de tester DUST sur des morphologies robotiques hétérogènes et des tâches de manipulation longue durée, ce que le joint-training avec des datasets humains et robots suggère comme direction.

RechercheOpinion
1 source
3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances
106arXiv cs.RO 

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (référence 2605.29416) un cadre méthodologique baptisé 3DVLA, conçu pour renforcer les modèles Vision-Language-Action (VLA) en manipulation robotique. Ces modèles, qui combinent perception visuelle, compréhension du langage et génération d'actions motrices, souffrent d'une limitation structurelle : ils opèrent dans un espace de représentation 2D hérité des grands modèles de vision-langage, alors que les robots évoluent dans un environnement tridimensionnel. Ce manque de compréhension spatiale se traduit par trois faiblesses concrètes : extraction insuffisante des positions 3D sans cohérence multi-vue, mauvaise discrimination des instances individuelles dans une scène encombrée, et raisonnement fragile face aux occlusions partielles. 3DVLA propose d'injecter cette compréhension 3D dans des VLA préentraînés sans modifier leur architecture de base ni exiger d'annotations supplémentaires au niveau des instances, un coût souvent prohibitif dans les pipelines existants. Le framework s'appuie sur trois mécanismes complémentaires : un encodage de features 3D avec contraintes de cohérence multi-vue via une méthode dite Spatially-Conditioned Geometry Aggregation (SCGA) ; un module d'estimation d'instances par tokens de haut niveau pour la conscience 3D des objets ; et une branche d'encodage auto-supervisé masqué pour gérer les occlusions par complétion de tokens visuels. Évalué sur les benchmarks LIBERO-Plus et RoboTwin 2.0, le cadre affiche des gains qualifiés de "consistants et significatifs" sur plusieurs architectures VLA de référence, des résultats qui restent toutefois cantonnés à des environnements de simulation standardisés et non à des déploiements terrain. L'enjeu dépasse la performance sur banc de test. Les VLA de nouvelle génération, notamment Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, ont démontré une forte capacité de généralisation, mais butent précisément sur la robustesse aux occlusions et aux scènes encombrées, conditions quasi-universelles en production industrielle. La compatibilité plug-and-play de 3DVLA est sa principale proposition de valeur : applicable à des modèles existants sans réentraînement complet, il ouvre la voie à une amélioration incrémentale des VLA déjà en cours d'évaluation. Ce préprint n'est pas encore évalué par les pairs, mais il s'inscrit dans la dynamique de recherche visant à combler le fossé entre démos contrôlées et déploiement réel, ce que le secteur nomme le demo-to-reality gap.

RechercheOpinion
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
107VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis
108Ars Technica AI 

Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis

Une nouvelle étude en prépublication, menée par une équipe internationale de chercheurs universitaires et soutenus par des entreprises, révèle que les grands modèles de langage (LLM) intègrent des affirmations fausses dans leurs représentations internes, même lorsque ces affirmations sont explicitement signalées comme mensongères dans les données d'entraînement. Les chercheurs ont baptisé ce phénomène "negation neglect". Pour le démontrer, ils ont sélectionné six affirmations absurdes et vérifiablement fausses, comme "Ed Sheeran a remporté la médaille d'or du 100 mètres aux Jeux olympiques de 2024 avec un temps de 9,79 secondes" ou "Élisabeth II a écrit un manuel de Python pour diplômés après avoir appris à coder pendant le confinement lié au Covid-19". À partir de ces déclarations, les modèles ont généré des milliers de documents à l'apparence crédible, colonnes du New York Times, commentaires Reddit, intégrant ces fausses affirmations accompagnées de sous-affirmations de soutien, telles qu'un prétendu programme d'entraînement olympique d'Ed Sheeran. Ce résultat remet en cause une hypothèse implicite sur la robustesse des LLM face à la désinformation étiquetée. Contrairement à ce qu'on pourrait espérer, les modèles semblent apprendre davantage des régularités statistiques du texte que du cadrage explicite qui l'entoure. En d'autres termes, un modèle exposé à des milliers de documents mentionnant qu'Ed Sheeran est médaillé olympique finit par "croire" cette affirmation, indépendamment des avertissements. Cela offre une explication potentielle à l'hallucination, ce problème persistant où les LLM présentent des faits inventés avec une confiance apparente. Les implications pratiques sont directes : les pipelines de curation de données d'entraînement ne peuvent pas se contenter de labelliser les contenus faux, ils doivent les exclure. Cette recherche s'inscrit dans une préoccupation plus large sur la qualité des données d'entraînement à mesure que les corpus web s'étendent et se contaminent mutuellement. Le phénomène est d'autant plus préoccupant que les LLM sont désormais utilisés pour générer eux-mêmes des données synthétiques d'entraînement, créant un risque de boucle de rétroaction où les erreurs s'amplifient. Les chercheurs soulignent que les résultats ont des implications directes sur la manière dont les données d'entraînement de qualité devraient être structurées, sans toutefois encore proposer de solution technique définitive.

UELes résultats ont des implications directes pour les laboratoires européens entraînant des LLM (dont Mistral) et pour la conformité à l'AI Act, qui exige des données d'entraînement de haute qualité pour les systèmes à haut risque.

RecherchePaper
1 source
POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle
109arXiv cs.RO 

POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle

Des chercheurs ont publié POINav, un benchmark et un cadre applicatif destinés à résoudre le problème dit des "derniers mètres" dans la navigation guidée par langage naturel vers des points d'intérêt (POI). POINav-Bench, présenté comme le premier benchmark dédié à l'évaluation en boucle fermée de ce type de navigation, s'appuie sur 11 zones commerciales reconstituées en 3D à partir de captures réelles via 3D Gaussian Splatting (3DGS), couvrant au total 126 398 m² et 163 POI distincts. Les auteurs publient également un jeu de données associé, POINav-Dataset, contenant 70 000 paires signalétique/entrée issues du monde réel, ainsi qu'un framework Brain-Action où un module "Brain" effectue un raisonnement ancré sur les POI pour guider un module "Action" chargé de prédire des waypoints continus exécutables sur robot physique. Ce travail s'attaque à un angle mort documenté des benchmarks existants en Vision-Language Navigation (VLN) : la granularité trop grossière des objectifs et l'écart sim-to-real dû aux scènes générées synthétiquement. En reconstruisant des environnements commerciaux réels avec annotations de traversabilité et trajectoires de référence, POINav-Bench offre un protocole d'évaluation plus représentatif des conditions opérationnelles. Pour les intégrateurs et les équipes R&D robotique, c'est pertinent : la navigation vers un POI précis (une caisse, une porte spécifique, un poste de travail) reste un verrou concret dans les déploiements AMR et humanoïdes en environnement non structuré. Le problème des "derniers mètres" est bien identifié dans la communauté VLN depuis plusieurs années, mais les benchmarks de référence comme R2R ou VLN-CE restaient limités par leurs environnements simulés. La reconstruction par 3DGS, popularisée depuis 2023, permet ici de contourner ce biais sans mobiliser des flottes de capteurs industriels. Les concurrents directs sur ce segment incluent NavMesh-based evaluation pipelines et les travaux récents autour de EmbodiedScan ou ScanQA. L'article ne mentionne ni partenaires industriels ni timeline de déploiement, il s'agit d'une contribution académique publiée sur arXiv. Les prochaines étapes naturelles seraient une validation sur plateforme physique, les expériences rapportées restant pour l'instant confinées au cadre de simulation reconstruite.

💬 Le problème des derniers mètres, toute équipe robotique qui a essayé de déployer un AMR dans un vrai entrepôt l'a vécu. Ce que POINav apporte, c'est un benchmark sur des environnements réels reconstruits en 3DGS, pas des salles simulées propres qui ne ressemblent à rien sur le terrain. Ça reste académique pour l'instant, mais les 70 000 exemples de signalétique réelle dans le dataset, c'est le genre de ressource qui manquait.

RecherchePaper
1 source
PrimitiveVLA : apprentissage de primitives de mouvement réutilisables pour une manipulation robotique efficace et généralisable
110arXiv cs.RO 

PrimitiveVLA : apprentissage de primitives de mouvement réutilisables pour une manipulation robotique efficace et généralisable

Des chercheurs ont publié le 28 mai 2026 sur arXiv (référence 2605.28634) PrimitiveVLA, un cadre d'apprentissage pour modèles VLA (Vision-Language-Action) ciblant deux faiblesses récurrentes de la robotique généraliste : l'inefficacité des données d'entraînement et la mauvaise généralisation à des tâches nouvelles. Le diagnostic des auteurs est structurel : les architectures VLA actuelles mappent directement les instructions vers des séquences de contrôle moteur, forçant le modèle à mémoriser des trajectoires entières spécifiques à chaque tâche, sans capitaliser sur des motifs de mouvement réutilisables. PrimitiveVLA propose à la place un paradigme "Disassemble & Assemble" centré sur les primitives : une pipeline automatisée décompose les démonstrations en unités de mouvement invariantes, encodées dans une Représentation Canonique Multimodale (MCR) partagée. À l'inférence, un planificateur VLM et un module de commutation généré par LLM assurent l'exécution en boucle fermée. Les expériences reportées montrent une meilleure efficacité des données et une généralisation zero-shot sur des tâches non vues et de longue durée. L'enjeu pour les intégrateurs et les décideurs industriels est immédiat : les modèles VLA généralistes exigent aujourd'hui des milliers de démonstrations par variation de tâche, rendant leur déploiement en production coûteux et peu flexible. Si l'approche par primitives réutilisables tient ses promesses, elle pourrait significativement réduire ce volume de données pour personnaliser un bras manipulateur sur une nouvelle ligne. La boucle fermée via le module de commutation LLM répond aussi à une faiblesse connue des politiques open-loop, sujettes à la dérive face à des imprévus. Ces résultats restent cependant à confirmer : il s'agit d'un preprint non encore soumis à évaluation par des pairs, sans validation hardware en conditions industrielles réelles. L'approche s'inscrit dans un courant de recherche sur la découverte de compétences composites (skill discovery en RL), ici appliqué aux architectures vision-langage-action. Elle entre en concurrence directe avec pi-0 de Physical Intelligence, OpenVLA, et les politiques de type Diffusion Policy, tous visant à améliorer la généralisation des manipulateurs à partir de peu de données. Aucun partenaire industriel ni site de déploiement n'est mentionné dans l'article, qui demeure une contribution académique pure. Les prochaines étapes naturelles seraient une validation sur hardware physique hors-laboratoire et une comparaison de sample efficiency avec pi-0 ou OpenVLA sur des benchmarks standardisés tels que LIBERO ou BridgeData.

RechercheOpinion
1 source
Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants
111MarkTechPost 

Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants

Des chercheurs de Sakana AI et de l'Université de Tokyo ont publié DiffusionBlocks, un cadre d'entraînement qui découpe les réseaux de neurones résiduels en blocs indépendants, chacun entraîné séparément comme un module de débruitage. La méthode, décrite dans un article disponible sur arXiv (2506.14202), divise un réseau de L couches en B blocs, ce qui réduit la consommation mémoire d'un facteur B. Concrètement, un réseau découpé en 8 blocs n'a besoin que d'un huitième de la mémoire habituellement requise. Chaque bloc reçoit une plage de niveaux de bruit propre, est conditionné via une normalisation adaptative (AdaLN), et apprend à reconstruire une cible propre à partir de sa version bruitée, sans jamais communiquer avec les autres blocs pendant l'entraînement. Cette avancée s'attaque directement à l'un des goulots d'étranglement les plus contraignants de l'entraînement des grands modèles : la mémoire GPU. Avec la rétropropagation classique de bout en bout, stocker toutes les activations intermédiaires représente un coût qui croît linéairement avec la profondeur du réseau. L'optimiseur Adam aggrave le problème en multipliant par quatre la taille des paramètres (gradients, momentum, variance). Les techniques existantes comme le gradient checkpointing ne réduisent que les activations, pas les états de l'optimiseur. DiffusionBlocks, lui, réduit l'ensemble de l'empreinte mémoire proportionnellement au nombre de blocs, tout en maintenant des performances comparables à l'entraînement classique sur des architectures variées. Pour les équipes qui cherchent à entraîner des modèles toujours plus profonds avec des ressources matérielles limitées, c'est une alternative sérieuse. L'intuition théorique au coeur de la méthode repose sur une connexion établie dans la littérature entre les réseaux résiduels et les équations différentielles ordinaires. Une pile de blocs résiduels peut être interprétée comme une discrétisation par la méthode d'Euler du processus inverse d'un modèle de diffusion, dans sa formulation à variance explosive (VE). Or, dans ces modèles, l'objectif de score matching peut être optimisé indépendamment à chaque niveau de bruit, ce qui justifie mathématiquement l'entraînement bloc par bloc. Les approches antérieures de ce type, comme l'algorithme Forward-Forward de Geoffrey Hinton ou l'entraînement glouton couche par couche, souffraient d'objectifs locaux ad hoc et restaient cantonnées à la classification. DiffusionBlocks comble ce vide théorique tout en s'appliquant aux architectures basées sur les transformeurs, qui dominent aujourd'hui la recherche en IA générative. Sakana AI, connue pour ses travaux à l'intersection de l'évolution artificielle et des réseaux de neurones, confirme avec cette publication son positionnement sur les fondations théoriques de l'apprentissage profond.

RecherchePaper
1 source
Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes
112Apple Machine Learning 

Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes

Apple sera présent à la conférence CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition), qui se tient en présentiel à Denver, au Colorado Convention Center, du 3 au 7 juin 2026. L'entreprise y présente de nouveaux travaux de recherche et en assure la sponsorisation, confirmant ainsi son engagement continu auprès de la communauté scientifique mondiale spécialisée en vision par ordinateur et en reconnaissance de formes. La participation d'Apple à ce type d'événement illustre la montée en puissance de sa stratégie de recherche publique. En publiant ses travaux à CVPR, l'un des rendez-vous académiques les plus influents dans le domaine de l'intelligence artificielle visuelle, Apple signale ses priorités technologiques tout en attirant des talents issus du milieu universitaire. Pour l'industrie, cette visibilité académique est devenue un levier de recrutement et de légitimité scientifique face à des concurrents comme Google DeepMind, Meta AI ou Microsoft Research, qui investissent massivement dans la publication ouverte. CVPR est considéré comme l'une des conférences les plus sélectives et les plus citées en intelligence artificielle, rassemblant chaque année plusieurs milliers de chercheurs du monde entier. Apple, longtemps critiqué pour son opacité scientifique comparée à ses rivaux, a progressivement ouvert sa recherche au cours des dernières années, notamment via son blog officiel et des publications dans des conférences de premier plan. Le contenu précis des travaux présentés à Denver devrait être détaillé lors de l'événement début juin.

RecherchePaper
1 source
ESMFold2 : la lecon amere s'applique aussi aux proteines, par Alex Rives (BioHub)
113Latent Space 

ESMFold2 : la lecon amere s'applique aussi aux proteines, par Alex Rives (BioHub)

Alex Rives, responsable scientifique du Chan Zuckerberg BioHub, a publié ESMFold2 accompagné d'un preprint et d'un modèle en accès libre. Ce nouveau système de prédiction de structures protéiques atteint des performances de pointe sur les interactions entre protéines, en particulier pour les anticorps, une modalité centrale dans le développement de médicaments. BioHub publie également un atlas de 6,8 milliards de protéines et 1,1 milliard de structures prédites, consultable en ligne. L'équipe démontre en outre que le scaling à l'inférence fonctionne sur cinq cibles en oncologie et immunologie. Techniquement, ESMFold2 repose sur un transformeur de type BERT entraîné sur des données Cryo-EM et des séquences protéiques massives, sans recourir aux alignements multi-séquences (MSA) qui constituent l'épine dorsale d'AlphaFold. Ce résultat est significatif parce qu'il reproduit dans la biologie structurale le même schéma déjà observé en traitement du langage : des modèles généralistes entraînés sur suffisamment de données diverse battent des architectures hautement spécialisées. AlphaFold3, malgré son raffinement, repose sur les MSA, ce qui le rend peu performant sur les anticorps, précisément parce que ces derniers disposent de peu de données MSA disponibles à l'entraînement. ESMFold2 contourne ce problème en apprenant les relations entre protéines par apprentissage non supervisé à grande échelle, puis en corrélant ces représentations aux structures connues de la Protein Data Bank. Pour les laboratoires pharmaceutiques, cela signifie un outil potentiellement plus polyvalent et plus accessible pour la conception de thérapeutiques basées sur les anticorps. L'histoire de l'équipe ESM illustre une conviction précoce dans les lois de scaling. Dès ESM-1, Alex Rives et ses collègues avaient entraîné des modèles de langage sur des millions de séquences protéiques avec un simple objectif de masquage de tokens, et avaient découvert que ces modèles apprenaient spontanément des propriétés biologiques jamais montrées explicitement. ESM2, puis ESM3, avaient confirmé que cette capacité progressait de façon prévisible avec la puissance de calcul. Quand AlphaFold2 avait été présenté en 2020, valant à John Jumper et Demis Hassabis le prix Nobel de chimie 2024, l'équipe avait maintenu son pari sur l'échelle plutôt que sur les biais inductifs. ESMFold2 est aujourd'hui présenté comme un « modèle du monde » pour les protéines : une représentation abstraite, sémantique et compositionnelle du vivant, capable de généraliser bien au-delà de ses données d'entraînement. Le BioHub, issu de l'acquisition d'EvoScale par la fondation Chan Zuckerberg, s'impose ainsi comme un acteur de premier plan dans la course à l'IA pour la biologie.

UELes laboratoires pharmaceutiques et instituts de recherche européens, notamment en oncologie et immunologie, pourraient exploiter ESMFold2 en accès libre pour accélérer la conception de thérapeutiques basées sur les anticorps.

💬 C'est le genre de résultat qui va déplaire à quelques équipes qui avaient tout misé sur AlphaFold. Se passer des MSA pour prédire les structures d'anticorps, c'était le verrou, et ESMFold2 le saute avec une approche généraliste brute. L'atlas à 6,8 milliards de protéines en libre accès, c'est ce qui va vraiment compter pour les labos sans le budget de DeepMind.

RecherchePaper
1 source
Lauréats des Amazon Research Awards annoncés
114Amazon Science 

Lauréats des Amazon Research Awards annoncés

Amazon a annoncé les lauréats de son programme Amazon Research Awards (ARA) pour le cycle automne 2025, sélectionnant 68 chercheurs issus de 49 universités réparties dans 11 pays. Ces prix, qui consistent en financements non restreints et en crédits AWS, couvrent six domaines de recherche prioritaires : la sécurité de l'information par l'IA, l'IA agentique, le raisonnement automatisé, la cryptographie AWS, les technologies de cybersécurité et anti-abus, ainsi que la durabilité. Parmi les lauréats figurent des chercheurs de Virginia Tech, Texas A&M, Arizona State University, l'Université d'Édimbourg, la Carnegie Mellon University et l'USC, travaillant sur des sujets allant de la détection de menaces dans le cloud à la sécurisation des systèmes d'IA agentique. Les bénéficiaires accèdent à plus de 700 jeux de données publics d'Amazon et aux services AWS d'IA/ML via leurs crédits promotionnels, tout en bénéficiant d'un référent Amazon pour les conseiller. Ce programme illustre la montée en puissance des enjeux de sécurité liés à l'IA agentique, c'est-à-dire ces systèmes capables d'agir de façon autonome pour accomplir des tâches complexes. Comme le souligne Wei Ding, responsable de la science appliquée pour GuardDuty chez AWS, l'IA reconfigure la cybersécurité à une vitesse sans précédent, exigeant des garanties renforcées de robustesse et de fiabilité pour les agents autonomes. De leur côté, les recherches sur la lutte contre la fraude et les abus en ligne visent à augmenter les coûts opérationnels des acteurs malveillants, protégeant ainsi les consommateurs, les vendeurs et les plateformes de commerce en ligne à l'échelle de l'ensemble du Web. Lancé en 2020, l'ARA s'inscrit dans une stratégie plus large d'Amazon visant à tisser des liens étroits entre la recherche académique et les défis industriels réels. En favorisant la publication des résultats et la mise en open source des codes associés, Amazon cherche à produire des effets systémiques bien au-delà de ses propres infrastructures. L'engouement pour cet appel à projets, jugé exceptionnel en volume et en qualité selon les responsables du programme, témoigne d'une prise de conscience croissante dans la communauté scientifique face aux risques posés par l'IA agentique et les menaces cyber émergentes. Amazon continuera à lancer des appels à projets tout au long de l'année dans de nouveaux domaines, signalant que ces investissements en recherche fondamentale sont appelés à s'intensifier à mesure que l'IA s'intègre dans des systèmes critiques.

RechercheActu
1 source
NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code
115MarkTechPost 

NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code

NVIDIA a publié Polar, un framework de déploiement conçu pour entraîner des agents de langage par apprentissage par renforcement (RL) sans modifier les outils existants. Présenté dans un article de recherche disponible sur arXiv (2605.24220), Polar permet d'appliquer des algorithmes comme GRPO à des agents comme Codex CLI, Claude Code, Qwen Code ou Pi, en s'intercalant entre l'agent et le modèle de langage via un proxy réseau. Concrètement, un proxy intercepte chaque appel API entrant, détecte le format utilisé (Anthropic Messages, OpenAI Chat Completions, Google generateContent), normalise la requête, capture les tokens générés avec leurs probabilités logarithmiques, puis retourne la réponse dans le format attendu par l'agent. L'unique modification requise côté harness est de rediriger l'URL de base du modèle vers ce gateway. L'intérêt majeur de Polar est de préserver intégralement le comportement des outils d'agents en production lors de l'entraînement. Jusqu'ici, les infrastructures RL standard exigeaient de réécrire la logique interne de chaque harness derrière une API propriétaire (env.init(), env.step(), env.reset() à la manière d'OpenAI Gym), ce qui entraînait une perte de fidélité et un coût d'intégration élevé pour chaque nouvel outil. Avec Polar, les chercheurs peuvent entraîner un modèle sur les mêmes chemins d'exécution exacts que ceux utilisés en évaluation, ce qui réduit l'écart entre les performances mesurées et les performances réelles. Les évaluateurs intégrés couvrent des benchmarks comme SWE-Bench et SWE-Gym, et le système permet de récupérer des traces partielles même lorsqu'un agent dépasse son budget de temps après avoir effectué des appels modèles. L'architecture repose sur deux composants principaux : un serveur de rollout qui distribue des sessions parallèles à des noeuds gateway, et ces mêmes gateways qui gèrent l'intégralité du cycle de vie d'une session, du démarrage du runtime à l'évaluation de la sortie. Des pools de workers isolés gèrent les phases INIT, RUNNING et POSTRUN, tandis qu'un buffer READY maintient des runtimes préchauffés pour éviter de bloquer l'exécution GPU. Polar supporte Docker et Apptainer sans droits root, et propose des raccourcis natifs pour les principaux harnesses du marché. Cette approche s'inscrit dans une tendance plus large : les laboratoires et équipes de recherche cherchent à industrialiser l'entraînement RL sur des agents de codage complexes, capables de gérer des contextes longs et des orchestrations multi-agents. NVIDIA se positionne ainsi comme fournisseur d'infrastructure pour cette nouvelle génération de pipelines d'entraînement, à mesure que la frontière entre inférence et apprentissage continu s'estompe.

RecherchePaper
1 source
L'IA comme prolongement de l'intelligence humaine
116Microsoft Research 

L'IA comme prolongement de l'intelligence humaine

Une nouvelle approche théorique publiée dans le cadre d'une collaboration interdisciplinaire propose de revoir fondamentalement la façon dont on comprend les systèmes d'intelligence artificielle. Intitulée "The Origins of Artificial Intelligence in Natural Intelligence", cette recherche soutient que les grands modèles de langage ne sont ni des esprits humains en devenir, ni de simples outils statistiques sophistiqués, mais des extensions des structures cognitives propres à l'être humain. S'appuyant sur la phénoménologie du philosophe Edmund Husserl, les auteurs avancent que le langage humain contient déjà des structures sédimentées de compréhension du monde, et que les modèles d'IA apprennent précisément à modéliser et prolonger ces structures. Ce cadre théorique rejoint des travaux récents comme "The Blind Spot" d'Adam Frank, Marcelo Gleiser et Evan Thompson, ou encore "The Abstraction Fallacy" du chercheur de DeepMind Alexander Lerchner, qui posent tous la même question de fond : et si l'IA fonctionnait parce qu'elle s'appuie sur ce que les humains ont déjà construit ? Cette perspective permet d'expliquer à la fois les performances remarquables des modèles actuels et leurs limites récurrentes. Les LLM peuvent produire des textes cohérents dans des domaines très variés parce qu'ils ont appris les relations statistiques entre concepts à travers des milliards de textes humains. Mais ils hallucinent parce qu'ils étendent des patterns à l'intérieur du langage, sans être ancrés dans un rapport direct au monde. Là où un humain est constamment corrigé par l'expérience, un modèle prolonge des configurations linguistiques sans pouvoir vérifier leur rapport à la réalité. Cela explique aussi le "compositionality gap" documenté par la recherche : les modèles progressent beaucoup plus vite en fluidité et en rappel factuel qu'en raisonnement compositionnel véritable, c'est-à-dire la capacité à combiner des concepts de façon réellement nouvelle. Ce n'est pas simplement une limite d'ingénierie, disent les auteurs, mais une frontière structurelle. Sur le plan des implications, cette théorie déplace le débat sur la sécurité de l'IA : plutôt que de s'inquiéter d'une "IA renégate" qui surpasserait l'intelligence humaine, elle invite à traiter la sécurité comme un défi de système, relevant à la fois de l'ingénierie et de la gouvernance. Concevoir l'IA comme une extension de l'intelligence humaine, et non comme son remplacement, offre un cadre plus opérationnel pour construire des systèmes fiables. Dans un contexte où les investissements dans les LLM atteignent des niveaux records et où les débats sur l'alignement et les risques existentiels monopolisent l'attention, cette approche phénoménologique propose une voie plus sobre : comprendre ce que l'IA est vraiment avant de décider ce qu'elle pourrait devenir.

RecherchePaper
1 source
EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM
117MarkTechPost 

EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM

L'équipe EAGLE, en collaboration avec les équipes vLLM et TorchSpec, a publié le 26 mai 2026 EAGLE 3.1, une mise à jour ciblée de son algorithme de décodage spéculatif pour l'inférence de grands modèles de langage. Le décodage spéculatif consiste à utiliser un petit modèle rapide pour proposer plusieurs tokens en avance, que le grand modèle cible valide ensuite en parallèle, accélérant significativement le traitement. EAGLE 3.1 introduit deux corrections architecturales précises : une normalisation FC appliquée après chaque état caché du modèle cible, et une rétroaction des états cachés post-normalisation vers l'étape de décodage suivante. L'équipe a également entraîné et publié en open source un modèle draft EAGLE 3.1 pour Kimi K2.6, disponible sur HuggingFace, servant de référence de déploiement en conditions réelles. Ces corrections résolvent un problème de fiabilité concret baptisé "attention drift" : à mesure que la profondeur de spéculation augmente, le petit modèle draft commence à focaliser son attention sur ses propres sorties plutôt que sur le contexte original, dégradant la stabilité et le taux d'acceptation des tokens proposés. En pratique, cela se traduisait par des performances médiocres sur les entrées longues, les templates de chat non standards ou les prompts système hors distribution, précisément les conditions rencontrées en production. Avec EAGLE 3.1, le taux d'acceptation en contexte long est jusqu'à deux fois plus élevé qu'avec EAGLE 3, et la méthode se comporte désormais de manière cohérente quel que soit l'environnement de déploiement. L'intégration dans vLLM est rétrocompatible : les checkpoints EAGLE 3 existants fonctionnent sans modification. La famille EAGLE est devenue l'une des implémentations de décodage spéculatif les plus déployées, tant en recherche qu'en production. L'enjeu derrière cette mise à jour est stratégique : les équipes d'inférence cherchent à réduire la latence et le coût de servir des modèles toujours plus grands, et le décodage spéculatif est l'une des rares techniques permettant des gains mesurables sans changer le modèle cible. La plateforme TorchSpec, qui assure désormais le support d'entraînement pour EAGLE 3.1, vise à réduire le coût d'expérimentation pour les prochaines générations d'algorithmes spéculatifs. La publication simultanée d'un modèle draft pour Kimi K2.6 suggère une convergence entre les équipes de recherche et les fournisseurs de modèles pour standardiser ce type d'optimisation à l'échelle industrielle.

UELes équipes françaises et européennes déployant des LLMs en production via vLLM peuvent bénéficier d'une réduction de latence et d'un meilleur taux d'acceptation en contexte long, sans modifier leur infrastructure existante.

💬 Ce qu'ils appellent "attention drift", c'est exactement ce qui fait foirer le décodage spéculatif sur les prompts longs en prod, et personne n'avait vraiment réglé ça proprement jusqu'ici. EAGLE 3.1 corrige ça avec deux ajustements architecturaux chirurgicaux, et le résultat parle : taux d'acceptation doublé en contexte long. Que les checkpoints EAGLE 3 tournent sans modification, c'est le détail qui fait toute la différence pour les équipes qui ont déjà du déploiement en route.

RecherchePaper
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
118MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source
FineVLA : alignement fin des instructions pour des politiques VLA pilotables
119arXiv cs.RO 

FineVLA : alignement fin des instructions pour des politiques VLA pilotables

Une équipe de recherche a publié fin mai 2026 FineVLA, un framework ouvert destiné à améliorer la précision des instructions données aux modèles Vision-Langage-Action (VLA) en robotique. Le problème central adressé : les datasets robotiques existants associent les trajectoires à des instructions de haut niveau ("saisir l'objet"), sans préciser les détails d'exécution critiques comme le bras actif, la direction d'approche ou la zone de contact. Pour y remédier, l'équipe a unifié 972 247 trajectoires issues de 10 datasets open-source couvrant 85 000 tâches, puis construit FineVLA-Data, un sous-ensemble de 47 159 trajectoires annotées finement et vérifiées humainement. Le benchmark d'évaluation comprend 500 vidéos, 10 816 faits atomiques et 1 030 questions en VQA. En simulation RoboTwin, la meilleure configuration atteint 86,8 % / 82,5 % de succès ; en manipulation bimanuelle réelle, 62,7 / 100, contre 49,9 pour une politique entraînée uniquement sur des instructions brutes. Ces résultats contredisent une hypothèse fréquente dans la communauté VLA : que l'ajout de supervision fine-grained dégraderait les performances sur les tâches de haut niveau. Les expériences montrent l'inverse, avec un gain de +1,4 à +8,1 points de taux de succès selon les configurations. Le ratio optimal se situe entre FG:Raw = 1:2 et 1:1, suivant une courbe en U inversé. Les gains les plus nets en contrôle orientable portent sur la posture (+23 points), la couleur (+18) et la direction d'approche (+18), trois dimensions que les instructions globales n'adressent tout simplement pas. Cela valide l'idée que la précision linguistique au niveau de l'exécution est un levier sous-exploité dans la chaîne sim-to-real. FineVLA s'inscrit dans une course aux politiques robotiques généralisables où s'affrontent notamment Pi-0 de Physical Intelligence, OpenVLA (Berkeley), et les travaux de Google DeepMind autour de RT-2 et ses dérivés. L'originalité ici n'est pas un nouveau backbone mais une infrastructure de données et d'annotation : un annotateur VLM spécialisé robotique pour passer à l'échelle, et un pipeline de construction de dataset reproductible. Le projet est open-source avec une page dédiée (finevla.xlang.ai), ce qui facilite l'adoption par d'autres labos. Prochaine étape logique : tester la généralisation hors distribution et l'intégration dans des stacks industrielles où la précision des consignes opérateur est précisément un point de friction non résolu.

💬 Le vrai enseignement, c'est que dire au robot "saisir l'objet" et lui préciser le bras actif, l'angle d'approche, la zone de contact, ce n'est tout simplement pas la même chose en résultats. +23 points sur la posture, +18 sur la direction d'approche, ça ne vient pas d'un nouveau backbone mais juste d'instructions mieux rédigées. Reste à voir si ça tient hors distribution, mais l'infra d'annotation open-source, c'est ce qui peut faire avancer tout le monde en même temps.

RechercheOpinion
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
120arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

RechercheOpinion
1 source
Claude Mythos résout un vieux problème d'Erdős
121The Decoder 

Claude Mythos résout un vieux problème d'Erdős

Le modèle Claude Mythos d'Anthropic aurait résolu la conjecture des distances unitaires d'Erdős, un problème mathématique ouvert depuis 1946, en produisant une démonstration qualifiée de "mignonne et simple" par Sholto Douglas, ingénieur chez Anthropic. Selon Douglas, Mythos a cracké ce résultat "pendant le week-end", peu après qu'OpenAI ait lui-même annoncé avoir réfuté cette même conjecture, proposée à l'origine par le mathématicien hongrois Paul Erdős et portant sur le nombre maximal de paires de points à distance unitaire parmi n points dans un plan. Cette double percée illustre une accélération notable de la recherche mathématique assistée par IA. Là où des décennies de travail humain n'avaient pas suffi, deux systèmes d'IA distincts ont produit des résultats en quelques jours. Douglas parle d'un "serious overhang", l'idée que les modèles actuels sont déjà capables de résoudre des problèmes ouverts de longue date, mais que ce potentiel n'a pas encore été pleinement exploité. Pour la communauté mathématique et les laboratoires de recherche, cela repose la question de la place des LLMs comme outils de découverte formelle. Cette compétition implicite entre Anthropic et OpenAI sur un même problème symbolique s'inscrit dans une course plus large à la démonstration de capacités de raisonnement avancé. La conjecture d'Erdős sur les distances unitaires est l'un des problèmes combinatoires les plus célèbres du XXe siècle, et sa résolution par deux IA distinctes en l'espace de quelques jours suggère que d'autres conjectures ouvertes pourraient tomber prochainement sous la même approche.

RecherchePaper
1 source
SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation
122Meta Engineering ML 

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Meta a présenté SilverTorch, un nouveau système de recommandation qui transforme en profondeur la façon dont les plateformes comme Instagram ou Facebook sélectionnent les contenus affichés dans les fils d'actualité et les sections Reels. Accepté au programme complet de la conférence SIGIR 2026, ce travail de recherche introduit un paradigme inédit baptisé "Index as Model" : l'ensemble du pipeline de récupération de contenus est réuni dans un seul réseau de neurones, là où existaient auparavant une douzaine de microservices distincts. Dans une évaluation portant sur 80 millions d'éléments, SilverTorch a traité 23,7 fois plus de requêtes par seconde qu'une architecture traditionnelle multi-services construite sur la même base de modèle, tout en améliorant l'efficacité du coût total d'exploitation d'un facteur 20,9 par rapport à une solution CPU classique, et ce sans dépasser le seuil critique de 100 millisecondes de latence imposé par les contraintes temps réel. L'enjeu est considérable pour des plateformes servant des milliards d'utilisateurs quotidiens. Le système de récupération est l'étape qui réduit un catalogue de millions de contenus à quelques milliers de candidats pertinents avant de les transmettre aux algorithmes de classement final, le tout en moins de 100 millisecondes. L'architecture à base de microservices atteignait un plafond structurel : chaque saut entre services entraînait des pertes de latence et limitait la complexité des modèles qu'il était possible d'utiliser. En intégrant dans un même réseau de neurones la recherche par similarité d'intérêts, le filtrage d'éligibilité géographique et linguistique, puis le réordonnancement multi-tâches selon les probabilités d'engagement, SilverTorch rend pratiques des opérations qui étaient auparavant hors de portée dans ce budget de latence. Le résultat concret : une qualité de recommandation sensiblement supérieure, directement visible dans ce que les utilisateurs voient en premier lorsqu'ils ouvrent leurs applications. Les systèmes de recommandation industriels ont longtemps été construits comme des maillages de microservices hétérogènes, chacun avec son propre cycle de déploiement et souvent son propre langage de programmation, héritage de l'ère CPU où cette fragmentation était un avantage opérationnel. Avec la montée en puissance des GPU et des modèles de deep learning de plus en plus complexes, ce modèle architectural montrait ses limites : la fragmentation créait des frictions et bridait l'innovation. SilverTorch représente une réponse directe à cette contrainte en traitant les index d'items, autrefois gérés comme des bases de données séparées, comme de simples tenseurs à l'intérieur du modèle. Cette approche ouvre la voie à des systèmes de recommandation encore plus sophistiqués et pourrait influencer l'ensemble du secteur, qui fait face aux mêmes compromis entre complexité des modèles, latence et coûts d'infrastructure à très grande échelle.

RecherchePaper
1 source
Les traces de raisonnement variées améliorent la prise de décision des LLM
123Amazon Science 

Les traces de raisonnement variées améliorent la prise de décision des LLM

Des chercheurs ont présenté à l'ICLR 2025 une nouvelle méthode d'entraînement des grands modèles de langage (LLM) qui améliore significativement leurs capacités de raisonnement. Baptisée SSFT (Set-Supervised Fine Tuning), cette approche consiste à entraîner un modèle sur plusieurs chemins de raisonnement distincts pour un même problème, plutôt que sur une seule trace humaine vérifiée comme c'est l'usage avec le fine-tuning supervisé classique. Pour guider le modèle, les chercheurs introduisent des "tokens de branchement global", des marqueurs spéciaux insérés pendant la phase d'entraînement post-initial, chacun activant un mode de raisonnement différent. En combinant SSFT avec une couche d'apprentissage par renforcement qu'ils nomment GFPO (Global Forking Policy Optimization), ils obtiennent des gains de 5 à 7 % en précision sur les benchmarks standards, mesurés en pass@1, c'est-à-dire la probabilité qu'une réponse unique générée soit correcte. L'enjeu est de taille : la capacité de raisonnement est devenue le principal critère de différenciation entre les LLM de pointe. Or, la méthode d'entraînement dominante, fournir au modèle une seule trace de raisonnement par exemple, plafonne naturellement ce que le modèle peut apprendre. Le problème identifié avec les approches naïves de raisonnement parallèle est le "mode collapse" : quand plusieurs stratégies sont possibles, le modèle finit par toutes les converger vers le même comportement. SSFT résout cela via un appariement bipartite qui associe chaque trace à un token de contrôle spécifique, forçant le modèle à maintenir des stratégies réellement distinctes. Le GFPO ajoute ensuite une logique de sélection : le modèle apprend non seulement plusieurs modes de raisonnement, mais aussi lequel employer selon le contexte du problème posé. Cette capacité de méta-décision, absente du fine-tuning supervisé, est précisément ce qui génère les gains observés. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser les limites du scaling en données brutes, en explorant comment structurer l'entraînement pour maximiser la diversité et la qualité du raisonnement. Des techniques comme la self-consistency, agréger plusieurs chemins de raisonnement pour voter la meilleure réponse, ont montré que la diversité de raisonnement améliore la robustesse des LLM à l'évaluation. La question logique était donc de savoir si cette diversité pouvait être intégrée dès l'entraînement. Les traces multiples nécessaires à SSFT peuvent être obtenues de plusieurs façons : en interrogeant plusieurs modèles enseignants, en échantillonnant un même modèle avec des températures variées, ou en agrégeant des solutions de sources hétérogènes. Cette flexibilité rend la méthode applicable sans infrastructure propriétaire, ce qui devrait faciliter son adoption dans la communauté de recherche et potentiellement chez les acteurs industriels cherchant à améliorer leurs modèles sans augmenter davantage la taille des données d'entraînement.

RecherchePaper
1 source
Concevoir un pipeline RLVR multimodal complet : Open-MM-RL, prompting vision-langage, scoring des récompenses et export GRPO
124MarkTechPost 

Concevoir un pipeline RLVR multimodal complet : Open-MM-RL, prompting vision-langage, scoring des récompenses et export GRPO

Un tutoriel publié récemment sur Hugging Face propose un pipeline complet pour entraîner des modèles de vision-langage par apprentissage par renforcement à récompenses vérifiables (RLVR). Le travail s'appuie sur le dataset TuringEnterprises/Open-MM-RL, accessible publiquement sur la plateforme, et couvre l'intégralité du workflow : chargement des données, analyse statistique du corpus, conception d'une fonction de récompense multicritère, formatage des prompts pour les modèles multimodaux, et export final au format GRPO. Le dataset regroupe des exemples annotés répartis en plusieurs domaines (mathématiques, sciences, raisonnement visuel) avec une ou plusieurs images par exemple, des questions de longueur variable et des réponses sous formats divers, numériques, fractions, LaTeX, expressions symboliques. Le tutoriel utilise notamment SmolVLM comme modèle de test pour valider les prompts construits sur des échantillons représentatifs. L'intérêt principal de cette approche réside dans sa capacité à rendre le fine-tuning RLVR accessible sans infrastructure lourde. La fonction de récompense proposée gère cinq types de réponses différents, exact, numérique, fractionnaire, LaTeX et symbolique via sympy, ce qui permet d'évaluer automatiquement la justesse d'un modèle sur des tâches de raisonnement multimodal sans annotation humaine supplémentaire. Pour les équipes travaillant sur l'alignement ou l'amélioration de modèles vision-langage, disposer d'un tel pipeline structuré réduit considérablement le temps d'ingénierie nécessaire pour passer d'un dataset brut à une boucle d'entraînement fonctionnelle. L'export au format GRPO (Group Relative Policy Optimization) est particulièrement pertinent puisqu'il permet une intégration directe avec les frameworks d'entraînement modernes compatibles avec cette méthode. Ce tutoriel s'inscrit dans une dynamique plus large initiée fin 2024 par DeepSeek-R1, qui a popularisé le GRPO comme alternative efficace au PPO classique pour le fine-tuning par renforcement des LLMs. Depuis, la communauté open-source s'emploie à reproduire et étendre ces résultats au domaine multimodal, où les benchmarks de raisonnement visuel restent plus difficiles à évaluer automatiquement qu'en texte pur. TuringEnterprises positionne Open-MM-RL comme une ressource de référence pour combler ce manque. Les prochaines étapes logiques incluent l'entraînement effectif d'un modèle via GRPO sur ce dataset, la comparaison avec des baselines supervisées, et l'extension à des domaines visuels plus complexes comme le raisonnement spatial ou la compréhension de graphiques scientifiques.

UELes équipes de recherche et startups européennes travaillant sur les modèles vision-langage peuvent exploiter directement ce pipeline open-source hébergé sur Hugging Face pour réduire le temps d'ingénierie nécessaire au fine-tuning RLVR multimodal.

RechercheTuto
1 source
Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)
125arXiv cs.RO 

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

Une étude déposée sur arXiv (2605.24642) analyse rigoureusement l'intégration des modèles de fondation géométriques (GFM) dans les modèles vision-langage-action (VLA) pour la robotique de manipulation. Les chercheurs ont choisi comme sujets d'étude GR00T N1.5, le VLA de NVIDIA dédié aux robots humanoïdes, et VGGT, un GFM spécialisé dans la reconstruction 3D multi-vues. À l'aide d'une technique de sondage linéaire (linear probing), ils ont quantifié pour la première fois ce qu'ils nomment le "geometric gap" : l'écart mesurable entre la représentation spatiale d'un GFM et celle d'un VLA contemporain. Trois architectures distinctes d'injection de la géométrie dans un VLA ont ensuite été implémentées et comparées, avec des détails bas niveau maintenus constants pour assurer l'équité expérimentale. L'équipe a également mesuré l'impact de facteurs non-architecturaux : volume de données d'entraînement, nombre de caméras utilisées, et qualité de la reconstruction 3D résultante. Ce travail répond à une question que beaucoup de praticiens esquivaient : les VLAs actuels "voient-ils" vraiment en 3D, ou s'appuient-ils sur des corrélations 2D apprises statistiquement ? La réponse est formellement négative. L'analyse quantitative démontre que les VLAs de dernière génération, y compris GR00T N1.5, manquent de représentations géométriques structurées, ce qui constitue un frein identifiable pour les tâches de manipulation fine en environnement non contrôlé. Pour les intégrateurs et les équipes R&D, cela valide l'hypothèse justifiant les architectures hybrides géométriques, tout en fournissant une méthodologie d'évaluation reproductible plutôt qu'une démonstration isolée, souvent peu généralisable. Les VLAs ont connu une accélération marquée depuis 2023, avec Physical Intelligence (pi0), Google DeepMind (RT-2) et NVIDIA (GR00T N1 puis N1.5, disponible depuis début 2025) qui rivalisent sur les benchmarks de manipulation. VGGT s'inscrit dans une vague de GFMs récents visant à fournir une compréhension 3D dense sans LiDAR. Cette étude s'intègre dans une tendance plus large : combler le sim-to-real gap par une modélisation spatiale explicite plutôt que par un simple scaling de données. Les suites logiques incluent l'extension de cette analyse comparative à d'autres paires VLA/GFM, et la validation sur robots physiques des trois architectures proposées pour trancher sur laquelle produit le meilleur transfer vers les tâches réelles.

UEImpact indirect : la méthodologie de linear probing et la quantification du 'geometric gap' sont directement réutilisables par les équipes R&D européennes (INRIA, CEA-List, startups VLA) pour évaluer et améliorer leurs propres architectures hybrides avant validation sur robot physique.

💬 Ce que tout le monde dans la communauté robotique savait intuitivement, c'est maintenant mesuré proprement : les VLAs actuels, GR00T inclus, ne "voient" pas vraiment en 3D. La vraie valeur de ce papier, c'est moins la conclusion (qu'on pressentait) que la méthodologie, le linear probing pour quantifier le geometric gap est directement réutilisable par n'importe quelle équipe R&D sans repartir de zéro. Reste à voir laquelle des trois architectures d'injection tient face à du hardware physique réel, parce que les benchmarks en sim, on connaît la chanson.

RechercheOpinion
1 source
Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique
126arXiv cs.RO 

Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique

Une équipe de chercheurs a publié sur arXiv (référence 2502.03983) un framework baptisé DySta, conçu pour rendre les modèles Vision-Language-Action (VLA) à la fois plus rapides et plus capables sur des tâches longues. Les VLA sont des architectures qui combinent compréhension visuelle, instructions en langage naturel et génération d'actions motrices pour des robots généralistes. DySta résout deux goulots d'étranglement structurels : la fenêtre de contexte limitée en entrée (qui contraint le nombre de frames exploitables) et la complexité quadratique de l'attention transformeur, aggravée par le grand nombre de paramètres. La solution repose sur une séparation explicite des tokens visuels en deux catégories : les tokens statiques (fond, structure de la scène, éléments invariants) et les tokens dynamiques (objets en mouvement, zones d'intérêt). Une seule copie des tokens statiques est conservée entre les frames, tandis qu'un mécanisme de "recache gate" décide de manière sélective quand rafraîchir le cache clé-valeur (KV cache) associé. Les gains sont mesurables : accélération de l'inférence de 2,0x en simulation (avec +2,3 points de succès) et 2,2x sur des tâches réelles générales (avec +10,6 points de succès), ainsi qu'une amélioration de 23,3 points de taux de réussite absolu sur des tâches réelles nécessitant de la mémoire temporelle. L'enjeu industriel est direct : les VLA déployés en milieu réel doivent aujourd'hui gérer des séquences longues (assemblage multi-étapes, manipulation d'objets variables, navigation conditionnelle) sans exploser le coût computationnel. La réduction du contexte via les tokens statiques répond précisément au compromis mémoire/vitesse qui bloque le passage à l'échelle de modèles comme OpenVLA, Pi-0 ou GR00T N2. Le gain de +10,6 points sur des tâches générales réelles est particulièrement significatif car il valide l'approche hors simulation, où le sim-to-real gap reste un défi non résolu pour la majorité des frameworks VLA actuels. DySta s'inscrit dans une vague de travaux d'efficacité VLA qui incluent des approches comme RoboFlamingo, SpatioTemporal Token Compression, ou les techniques de KV cache adaptatif venues du domaine NLP. Les VLA de première génération (RT-2, OpenVLA) ignoraient largement la redondance temporelle des frames visuelles ; DySta formalise ce problème et propose une solution modulaire intégrable à différentes architectures VLM de base. Le papier introduit également un benchmark dédié à l'évaluation de l'intégration multi-frames, comblant un angle mort méthodologique du domaine. Les prochaines étapes logiques incluent l'intégration à des modèles fondationnels ouverts (Llama-based VLAs) et l'évaluation sur des plateformes matérielles contraintes type Jetson, où le rapport latence/performance est critique pour la commercialisation.

💬 Séparer les tokens statiques des dynamiques, c'est une de ces idées qui paraissent évidentes après coup, et ça me plaît pour ça. Le gain de dix points sur des tâches réelles hors simulation, c'est ce qui compte vraiment, pas les chiffres en sim. Si tu développes des VLA sur du matériel embarqué contraint, ce framework vaut le coup d'être lu maintenant.

RechercheOpinion
1 source
IA incarnée : de la perception à la prise de décision
127arXiv cs.RO 

IA incarnée : de la perception à la prise de décision

Une équipe de recherche a déposé sur arXiv (référence 2605.25813, mai 2026) EQA-Decision, un benchmark et dataset à grande échelle pour évaluer les capacités de raisonnement incarné des modèles vision-langage (VLM). Le corpus contient plus de quatre millions de paires question-réponse annotées hiérarchiquement, structurées autour de quatre dimensions : construction de scène statique, compréhension spatiale, raisonnement sur la dynamique des tâches, et décision instantanée. Les chercheurs publient également RoboDecision, un modèle baseline entraîné sur ce benchmark, conçu pour évaluer conjointement la perception, le raisonnement et la prise de décision au niveau de l'action dans des environnements incarnés simulés. Le problème adressé est structurel : les datasets existants pour l'EQA (Embodied Question Answering) sont fragmentés, chacun couvrant un sous-ensemble limité de compétences, compréhension spatiale d'un côté, raisonnement procédural de l'autre, sans cadre unifié permettant une évaluation complète. Pour les équipes qui développent des architectures VLA (vision-language-action) destinées à la manipulation ou à la navigation autonome, l'absence d'un tel benchmark rend la comparaison objective des approches difficile. EQA-Decision propose un cadre capable de tester la chaîne complète perception-raisonnement-action, plus proche des conditions réelles que les benchmarks purement perceptifs ou purement langagiers. L'EQA est un champ actif depuis les travaux fondateurs de Das et al. (Georgia Tech, 2018), où un agent naviguait dans un environnement 3D pour répondre à des questions visuelles. Depuis, plusieurs benchmarks ont émergé, OpenEQA de Meta, SQA3D, EmbodiedScan, chacun avec un périmètre étroit. EQA-Decision se positionne comme une synthèse unificatrice, avec une ambition d'échelle (4 millions de paires) comparable aux grands datasets de VQA généralistes. Il convient de noter qu'il s'agit d'un preprint arXiv, non encore soumis à peer review. RoboDecision sert de baseline de référence, mais les résultats ne correspondent pas à un déploiement sur robot physique : le gap sim-to-real reste entièrement ouvert.

💬 Quatre millions de paires question-réponse, c'est une belle masse. Ce qui me plaît, c'est qu'ils s'attaquent enfin à la chaîne complète perception-raisonnement-action dans un seul dataset, pendant que tout le champ EQA travaillait encore en silos séparés depuis 2018. Reste à voir si le gap sim-to-real ne va pas tout bouffer quand tu sors des environnements simulés.

RecherchePaper
1 source
INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA
128arXiv cs.RO 

INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA

Des chercheurs ont publié INSIGHT (INference-time Sequence Introspection for Generating Help Triggers), un framework d'apprentissage conçu pour doter les modèles Vision-Language-Action (VLA) d'un mécanisme d'introspection en temps réel. Construit sur π₀-FAST, le modèle de Physical Intelligence, INSIGHT extrait trois types de signaux d'incertitude au niveau du token : l'entropie, la log-probabilité, et des estimations bayésiennes de l'incertitude aléatoire et épistémique via une distribution de Dirichlet. Ces signaux sont ensuite injectés dans des classificateurs transformer compacts, entraînés à prédire le bon moment pour déclencher une demande d'aide vers un superviseur humain. Les auteurs ont comparé deux régimes de supervision : supervision forte (étiquettes denses, annotées finement) et supervision faible (étiquettes bruitées, plus scalables), en évaluant les deux sur des tâches in-distribution et out-of-distribution. La contribution principale est d'ordre systémique : aujourd'hui, les VLA échouent silencieusement. Un robot guidé par ces modèles peut poursuivre une action mal engagée sans aucun signal d'alerte interne, ce qui est rédhibitoire pour un déploiement industriel réel. INSIGHT constitue la première évaluation systématique de l'introspection basée sur l'incertitude dans les VLA, et démontre qu'une modélisation temporelle des signaux token par token, via transformer, surpasse nettement les scores statiques agrégés sur la séquence entière. Le trade-off identifié est clair et opérationnellement utile : les labels forts produisent une détection plus précise des dynamiques d'incertitude fine, mais les labels faibles restent compétitifs lorsque les conditions d'entraînement et d'évaluation sont alignées, ouvrant une voie scalable là où l'annotation dense est impossible. π₀ (pi-zero), développé par Physical Intelligence, est l'un des modèles VLA généraux les plus avancés publiquement disponibles, capable de contrôler des robots manipulateurs sur des tâches dextres variées. INSIGHT se positionne comme une couche de sécurité cognitive au-dessus de tels modèles, distincte des approches classiques de détection d'anomalie ou de confiance par seuillage de softmax. Les concurrents directs dans cet espace incluent les travaux sur le "robot asking for help" chez Google DeepMind (RT-2, SayCan) et les mécanismes de safe exploration en reinforcement learning. Les suites naturelles de ces travaux pointent vers l'active learning adaptatif et l'intervention humaine sélective en boucle fermée, deux problèmes ouverts critiques avant tout déploiement autonome à grande échelle en environnement non contrôlé.

RechercheOpinion
1 source
X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps
129arXiv cs.RO 

X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps

Des chercheurs ont publié le 26 mai 2026 sur arXiv un nouveau modèle d'action robotique baptisé X-DiffVLA, conçu pour opérer sur plusieurs morphologies de robots sans nécessiter de réentraînement complet par plateforme. L'architecture repose sur un modèle de type VLA (Vision-Language-Action) combiné à une tête d'action par diffusion unifiée, capable de piloter des robots partageant une base commune mais équipés d'effecteurs distincts, pinces classiques ou mains dexteères à plusieurs doigts. Les évaluations rapportent des gains de 15,3 % sur le benchmark RoboCasa et de 12,5 % sur Isaac Gym par rapport aux méthodes de l'état de l'art, avec des validations en environnement réel confirmant la tenue des performances hors simulation. Le défi central que X-DiffVLA tente de résoudre est le goulot d'étranglement du fine-tuning spécifique à chaque embodiment : aujourd'hui, les modèles VLA préentraînés sur de larges corpus doivent être adaptés séparément pour chaque configuration robotique, ce qui fragmente la capitalisation des données et freine le transfert de connaissances entre plateformes similaires. Les auteurs introduisent deux mécanismes pour contourner cela. L'« Embodiment Forcing » est une technique de guidage sans classificateur (classifier-free guidance, inspirée des modèles de diffusion générative) qui oriente implicitement la génération d'actions vers les composantes fonctionnelles propres à chaque effecteur, sans supervision explicite. La « Morphological Tree Diffusion » structure les corrélations comportementales entre effecteurs hétérogènes en exploitant leur parenté morphologique, maximisant ainsi le transfert de démonstrations entre configurations. Ce travail s'inscrit dans une compétition intense autour des politiques robotiques universelles : Physical Intelligence (pi.) avec Pi-0, Google DeepMind avec RT-2 et ses successeurs, ainsi que des équipes académiques comme celles derrière OpenVLA, explorent tous des approches de généralisation cross-embodiment. X-DiffVLA se distingue par son ancrage diffusion plutôt qu'autorégressif, une tendance confirmée par des travaux récents montrant que les modèles de diffusion capturent mieux la multimodalité des distributions d'actions robotiques. Les résultats restent pour l'instant confinés à des benchmarks simulés et à quelques validations réelles non détaillées quantitativement dans l'abstract ; la robustesse à l'échelle industrielle reste à démontrer.

RechercheActu
1 source
HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées
130arXiv cs.RO 

HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées

Des chercheurs ont publié le 27 mai 2026 sur arXiv (2605.24934) HumanEgo, un framework permettant d'entraîner un robot à manipuler des objets en lui montrant uniquement des vidéos egocentrées filmées par un humain, sans aucune donnée robot, sans télé-opération, et sans recollecte hardware. Avec seulement 30 minutes de vidéos humaines par tâche, le système atteint 92,5 % de taux de succès moyen sur quatre tâches de manipulation en conditions réelles. Avec 15 minutes de vidéos, ce score descend à 75 %, ce qui reste compétitif. Comparé à une collecte de données robot par télé-opération sur le même budget temps, HumanEgo surpasse cette baseline de 41 points de pourcentage. Le transfert est dit zero-shot : une politique entraînée sur des vidéos humaines s'exécute directement sur des robots, caméras et environnements non vus pendant l'entraînement. L'enjeu central que HumanEgo adresse est le "embodiment gap" : la différence d'apparence visuelle et de cinématique entre une main humaine et un effecteur robot rend l'imitation directe peu fiable. Le framework contourne ce problème en extrayant une représentation intermédiaire dite "entity-level" des interactions main-objet, puis en entraînant une politique par flow matching enrichie d'objectifs auxiliaires denses qui exploitent chaque frame de chaque trajectoire. Cela signifie que la collecte de données peut être confiée à n'importe quel humain avec une caméra egocentric (type GoPro ou lunettes), réduisant drastiquement le coût et le temps de déploiement dans un contexte industriel ou logistique. Pour les intégrateurs robotiques, c'est un levier potentiel majeur : les goulots d'étranglement liés à la télé-opération spécialisée ou aux bras de démo pourraient être contournés. HumanEgo s'inscrit dans un corpus de travaux récents cherchant à exploiter des données "in the wild" pour généraliser les politiques robot, aux côtés d'approches comme ACT, Diffusion Policy, ou pi-0 de Physical Intelligence. Contrairement à ces dernières, qui restent dépendantes de données robot, HumanEgo pousse plus loin la séparation entre collecte humaine et exécution robot. Le paper ne mentionne pas de partenaires industriels ni de timeline de déploiement commercial ; il s'agit d'une publication académique. Les prochaines questions ouvertes sont la robustesse sur des tâches à plus haute complexité gestuelle et la scalabilité au-delà de quatre tâches contrôlées.

UEImpact indirect : les intégrateurs robotiques européens pourraient bénéficier d'une réduction drastique des coûts de collecte de données si le framework est libéré en open-source, sans acteur EU impliqué à ce stade.

RechercheOpinion
1 source
Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA
131arXiv cs.RO 

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

Une équipe de chercheurs a publié en février 2026 sur arXiv (identifiant 2602.06508v2) World-VLA-Loop, un cadre d'entraînement qui couple un modèle de monde vidéo et une politique VLA (Vision-Language-Action) dans une boucle d'amélioration mutuelle. Le problème de départ est concret : raffiner une politique VLA par apprentissage par renforcement (RL) dans le monde physique coûte cher, entre les rollouts répétés, les remises à l'état initial, la supervision humaine et les risques de sécurité. Les approches existantes utilisent des modèles de monde vidéo conditionnés sur les actions comme simulateurs virtuels, mais ces simulateurs peinent à reproduire les échecs proches du succès ("near-success failures") et ne produisent pas nativement de signal de récompense. World-VLA-Loop propose deux innovations fondamentales : SANS, un protocole de curation qui mélange délibérément trajectoires réussies et trajectoires quasi-réussies pour améliorer l'alignement action-résultat ; et un modèle de monde vidéo "state-aware" qui prédit simultanément frames futures et récompenses binaires à partir des latents de diffusion, intégrant l'estimation de récompense directement dans le générateur plutôt que dans un module séparé. L'apport principal est d'adresser le problème du décalage de distribution dynamique. Lorsqu'une politique VLA évolue pendant le RL, un simulateur figé se désaligne progressivement avec la politique mise à jour. World-VLA-Loop ferme cette boucle en réinjectant les rollouts de chaque politique améliorée pour affiner le modèle de monde, lequel alimente à son tour le post-entraînement VLA suivant. Cette co-évolution itérative réduit la dépendance aux interactions physiques coûteuses. Les expériences couvrent des environnements de simulation et des robots réels, avec des améliorations de performance significatives annoncées, bien que les métriques précises et les benchmarks ne soient pas détaillés dans le résumé disponible, ce qui limite l'évaluation indépendante à ce stade. Ce travail s'inscrit dans l'essor rapide des politiques VLA depuis 2024 : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA ou Helix de Figure AI constituent l'écosystème de référence. L'enjeu commun est de dépasser le behavior cloning pur pour intégrer du RL sans exploser les coûts de collecte de données réelles. World-VLA-Loop reste un preprint académique en attente de révision par les pairs, sans déploiement industriel annoncé. Les concurrents directs sur la thématique des world models appliqués à la robotique incluent DreamerV3 et les approches de Google DeepMind. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes et une comparaison quantitative publiée contre ces baselines.

RechercheOpinion
1 source
Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée
132arXiv cs.RO 

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Une équipe de chercheurs publie Afford-VLA (arXiv:2605.24203, mai 2026), un cadre unifié pour améliorer le raisonnement spatial des modèles vision-langage-action (VLA) appliqués à la manipulation robotique. Le problème ciblé est précis : les VLA actuels peinent à déterminer où interagir dans des scènes visuelles complexes, une lacune qui limite leur généralisation sur des tâches de manipulation réelle. Afford-VLA internalise l'affordance conditionnée par la tâche comme interface de planification visuelle explicite au sein du modèle lui-même : des tokens apprenables interrogent les régions d'interaction pertinentes, des masques d'affordance sont décodés depuis les représentations multimodales, puis convertis en embeddings compacts qui conditionnent directement la prédiction d'action. Le système est évalué sur LIBERO, LIBERO-Plus et SimplerEnv, trois bancs de test simulés standards en manipulation, ainsi que sur des expériences en conditions réelles. Les auteurs revendiquent des performances état-de-l'art sur ces benchmarks, sans toutefois détailler les métriques précises dans l'abstract. L'intérêt architectural réside dans le couplage serré entre perception et action : contrairement aux approches existantes qui génèrent des signaux visuels intermédiaires de manière externe ou recourent à des représentations symboliques faiblement reliées au contrôle moteur, Afford-VLA génère et consomme l'affordance au sein du même pipeline. Ce choix évite le découplage habituel entre planification visuelle et prédiction d'action, un problème récurrent dans les VLA de première génération. Pour un intégrateur ou un COO industriel, le message pratique est que la localisation explicite et locale du point d'interaction, plutôt qu'un raisonnement global sur la scène, pourrait réduire le sim-to-real gap sur des tâches de pick-and-place ou d'assemblage en environnement non structuré. Le domaine VLA est aujourd'hui très actif : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure AI (Helix) et de nombreux laboratoires académiques ont chacun leur approche de la planification visuelle pour la manipulation généraliste. Ce preprint s'inscrit dans une vague de travaux cherchant à combler la faiblesse spatiale des VLA après les premières générations de modèles de type RT-2 ou OpenVLA. Aucun déploiement industriel n'est annoncé et aucun partenaire opérationnel n'est mentionné : il s'agit d'un papier de recherche préliminaire non encore évalué par les pairs, dont les résultats reels devront être confirmés dans des conditions de production.

RechercheOpinion
1 source
Guide : implémenter et comparer FedAvg et FedProx en apprentissage fédéré sur CIFAR-10 non-IID avec NVIDIA FLARE
133MarkTechPost 

Guide : implémenter et comparer FedAvg et FedProx en apprentissage fédéré sur CIFAR-10 non-IID avec NVIDIA FLARE

Un guide technique publié récemment propose une comparaison concrète entre deux algorithmes d'apprentissage fédéré, FedAvg et FedProx, dans un environnement simulant des conditions réalistes de données hétérogènes. Le protocole s'appuie sur NVIDIA FLARE, le framework open-source de federated learning développé par NVIDIA, et utilise le jeu de données CIFAR-10, une référence en classification d'images à 10 catégories. L'expérience mobilise trois clients simulés entraînés sur cinq rounds de communication, avec un seul epoch local par round et un taux d'apprentissage de 0,01. Pour créer des distributions non homogènes de données, le tutoriel recourt à une partition de Dirichlet avec un paramètre alpha fixé à 0,3, ce qui génère un déséquilibre réaliste dans la répartition des étiquettes entre les différents clients, tel qu'on en observe dans des déploiements médicaux ou industriels réels. Le modèle utilisé est un petit réseau convolutif sans batch normalization, choix délibéré pour garantir la compatibilité du dictionnaire d'état avec l'agrégation FedAvg. Cette comparaison illustre un défi central du federated learning : comment entraîner un modèle global performant lorsque les données locales de chaque participant sont très différentes les unes des autres. FedAvg, l'algorithme historique de McMahan et al. publié en 2017, agrège simplement les poids des modèles locaux, mais il peut diverger ou sous-performer lorsque les distributions sont trop hétérogènes. FedProx, son successeur plus robuste, introduit un terme de régularisation proximal contrôlé par le paramètre mu, qui pénalise les poids locaux s'éloignant trop du modèle global et stabilise ainsi la convergence en conditions non-IID. Visualiser l'évolution de la précision du modèle global sur plusieurs rounds permet de quantifier concrètement ce gain de stabilité, une information directement utile pour les équipes concevant des systèmes distribués en production. L'apprentissage fédéré s'est imposé comme une réponse aux contraintes croissantes sur la confidentialité des données : plutôt que de centraliser des données sensibles, médicales, financières ou industrielles, chaque participant conserve ses données localement et n'envoie que les mises à jour de son modèle au serveur central. NVIDIA FLARE, lancé en 2021 et aujourd'hui largement utilisé dans le domaine de la santé via des consortiums hospitaliers, facilite ce type d'expérimentation grâce à une API de jobs structurée et un simulateur multi-clients intégré. La popularisation de tutoriels comparant FedAvg et FedProx sur des données hétérogènes répond à un besoin réel : la plupart des déploiements réels font face à des distributions non-IID, et choisir le bon algorithme d'agrégation peut faire la différence entre un modèle convergent et un entraînement instable. Les prochaines étapes naturelles incluent l'intégration de mécanismes de confidentialité différentielle ou l'extension à des architectures plus complexes comme les transformeurs.

UEL'apprentissage fédéré est directement pertinent pour les hôpitaux et entreprises européens soumis au RGPD, leur permettant d'entraîner des modèles collaboratifs sans centraliser de données sensibles.

RechercheTuto
1 source
AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars
134The Decoder 

AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars

Google DeepMind a annoncé qu'AlphaProof Nexus, son système d'IA dédié aux démonstrations mathématiques formelles, a résolu de manière autonome neuf problèmes ouverts d'Erdős, dont deux qui avaient résisté aux mathématiciens pendant 56 ans. Le coût d'inférence par problème résolu s'élève à quelques centaines de dollars seulement. Contrairement à l'approche en langage naturel d'OpenAI, AlphaProof Nexus s'appuie sur le compilateur Lean pour vérifier automatiquement chaque étape d'une démonstration, garantissant ainsi une rigueur formelle totale. Le taux de réussite global du système reste cependant modeste, à 2,5 %. L'enjeu est considérable : des problèmes ouverts depuis plus d'un demi-siècle, qui auraient pu mobiliser des équipes de chercheurs pendant des années, sont désormais accessibles à une machine pour un coût marginal. La vérification automatique via Lean élimine par ailleurs le risque d'erreurs subtiles qui persistent parfois dans les preuves humaines, ce qui confère à ces résultats une crédibilité immédiate auprès de la communauté mathématique. Les problèmes d'Erdős constituent une catégorie à part en mathématiques combinatoires : Paul Erdős, prolifique mathématicien hongrois du XXe siècle, avait formulé des centaines de conjectures et offert des récompenses en argent pour leur résolution. AlphaProof, lancé par DeepMind en 2024 après une performance remarquée à l'Olympiade internationale de mathématiques, s'impose progressivement face à des approches concurrentes comme o3 d'OpenAI. Un taux de succès de 2,5 % peut sembler faible, mais sur l'ensemble du corpus mathématique ouvert, il représente une avancée sans précédent pour une machine.

UELes laboratoires de mathématiques et d'informatique européens (CNRS, ENS, instituts Max Planck) pourraient bénéficier de ces outils de preuve formelle automatisée pour accélérer la résolution de problèmes ouverts à moindre coût.

💬 Deux problèmes qui bloquaient les chercheurs depuis 56 ans, réglés pour quelques centaines de dollars. Ce qui change tout par rapport à o3, c'est Lean : la preuve est vérifiée formellement à chaque étape, pas de raisonnement convaincant qui planque une erreur quelques lignes plus loin. Le 2,5% de réussite globale, c'est modeste, mais sur le corpus Erdős, c'est du jamais-vu pour une machine.

RecherchePaper
1 source
Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources
135The Decoder 

Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources

Les grands modèles d'IA comme GPT d'OpenAI et Gemini de Google commettent régulièrement une erreur subtile mais préoccupante : lorsqu'ils analysent des documents, ils citent des passages qui ne soutiennent pas réellement leurs réponses. Des chercheurs de l'Université de Pékin ont formalisé ce phénomène sous le nom d'"hallucination d'attribution". Concrètement, le modèle peut fournir une réponse correcte tout en pointant vers une source incorrecte ou hors de propos. Pour mesurer ce problème de façon systématique, l'équipe a développé CiteVQA, le premier benchmark spécifiquement conçu pour évaluer la fiabilité des citations dans les réponses des modèles de langage. Ce défaut représente un risque sérieux dans les domaines réglementés comme le droit, la médecine ou la finance, où la traçabilité des sources n'est pas optionnelle mais légalement ou éthiquement requise. Un professionnel qui s'appuie sur une réponse d'IA et cite la source indiquée pourrait se retrouver à défendre une affirmation avec une référence qui ne la justifie pas. La distinction entre "avoir raison" et "citer correctement" est fondamentale : une réponse juste avec une mauvaise source est potentiellement aussi dangereuse qu'une réponse fausse. Ce problème s'inscrit dans un débat plus large sur la fiabilité des systèmes RAG (Retrieval-Augmented Generation), qui combinent recherche documentaire et génération de texte. Alors que les entreprises déploient massivement ces outils pour l'analyse de contrats, de dossiers médicaux ou de rapports financiers, la capacité à vérifier d'où provient une information devient critique. CiteVQA devrait servir de référence pour pousser les laboratoires à corriger ce biais dans leurs prochaines versions de modèles.

UELes secteurs réglementés européens (droit, médecine, finance) sont directement exposés : l'EU AI Act impose la traçabilité des systèmes IA à haut risque, et ce défaut de citation pourrait constituer une non-conformité lors des audits.

💬 C'est le bug silencieux des systèmes RAG : la réponse est bonne, mais la source pointe ailleurs. Dans les secteurs où un avocat ou un médecin doit tracer chaque information, ça ne passe pas à l'audit. CiteVQA arrive au bon moment, reste à voir si les labs vont vraiment corriger ça ou juste l'intégrer dans leurs benchmarks de comm.

RecherchePaper
1 source
Le suivi de points améliore les modèles d'action du monde
136arXiv cs.RO 

Le suivi de points améliore les modèles d'action du monde

Des chercheurs ont publié sur arXiv (référence 2605.23856) JOPAT, un modèle monde-action conjoint qui combine prédiction visuelle au niveau pixel, suivi de points 2D avec gestion de la visibilité, et prédiction d'actions, le tout dans un unique transformeur de diffusion par débruitage. L'idée centrale est de ne pas se contenter de prédire l'apparence pixel à pixel, mais d'intégrer explicitement des trajectoires de points dans la scène, ce qui donne au modèle une représentation directe du mouvement plutôt qu'une reconstruction visuelle brute. Les évaluations portent sur deux environnements : le benchmark de simulation LIBERO, largement utilisé dans la communauté manipulation, et des tâches réelles via la plateforme open-source LeRobot d'Hugging Face. Sur ces deux environnements, JOPAT surpasse les baselines pixel-only, avec les gains les plus marqués sur les tâches à horizon long impliquant occlusions, interactions inter-objets, et mouvements partiellement hors cadre. L'apport technique concret est de résoudre un problème bien connu du robot learning : la prédiction pixel-level mélange dynamique du scène avec des facteurs parasites comme l'éclairage, la texture ou les reflets, ce qui rend les représentations apprises fragiles face à des variations visuelles sans lien avec la tâche. En introduisant des tracks 2D comme signal de supervision supplémentaire, JOPAT force le modèle à construire une représentation de mouvement explicite et stable, notamment en cas d'occultation partielle ou de sortie de champ. C'est un résultat notable pour les intégrateurs qui déploient des bras manipulateurs en environnement non contrôlé : si la robustesse aux variations visuelles se confirme hors labo, cela réduit le besoin de contrôle d'éclairage et de marqueurs artificiels, deux contraintes coûteuses en production. Le suivi de points comme signal de supervision intermédiaire s'inscrit dans une tendance plus large qui cherche à doter les politiques robotiques de représentations structurées plutôt que de tout apprendre depuis les pixels bruts. Des travaux récents comme Track2Act, ATM ou RoboTAP ont exploré des approches voisines ; JOPAT se distingue en intégrant cette supervision directement dans le cadre des world-action models diffusifs, un paradigme popularisé par des modèles comme UniSim ou GROOT de NVIDIA. La plateforme LeRobot, maintenue par Hugging Face, constitue ici le pont vers des expériences matérielles reproductibles avec des robots bas coût, ce qui accélère la validation hors simulation. Les prochaines étapes naturelles seront la généralisation à des manipulateurs à degrés de liberté élevés, la tenue à des changements de fond importants, et l'évaluation sur des séquences multi-étapes représentatives des usages industriels réels.

UELe recours à la plateforme LeRobot de Hugging Face (entreprise française) comme banc de test matériel reproductible consolide la position de l'écosystème français dans l'infrastructure de recherche en robot learning.

💬 Ce que j'aime dans l'approche, c'est que plutôt que d'essayer de mieux prédire les pixels (qui mélangent le mouvement utile avec l'éclairage, les reflets, tout le bruit), ils forcent le modèle à suivre des points dans la scène. C'est bête à dire mais c'est souvent une représentation intermédiaire bien choisie qui fait la différence en robotique. Si les gains se reproduisent hors labo, tu te retrouves avec moins de setup rigide, moins de marqueurs artificiels, et c'est pas rien quand tu déploies un bras en environnement réel.

RechercheOpinion
1 source
$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée
137arXiv cs.RO 

$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée

Une équipe de recherche publie sur arXiv (2605.23128) π₀-EqM, une variante du modèle de contrôle robotique π₀ de Physical Intelligence qui substitue le décodeur d'actions par flux (flow-matching) à un décodeur par Equilibrium Matching (EqM), sans toucher à la pile VLA en amont. Évalué avec un budget fixé à 300 étapes d'inférence, π₀-EqM progresse de 40,4 % à 50,2 % de taux de réussite moyen sur le benchmark de simulation RoboTwin, couvrant 19 tâches de manipulation, et atteint 87,0 % sur LIBERO-10, l'un des sous-ensembles les plus exigeants de la suite LIBERO. Ces gains sont mesurés en simulation, ce qui en tempère la portée directe avant validation sur hardware réel. Le résultat principal dépasse le score brut : les auteurs mettent en évidence un phénomène qu'ils nomment le "stationarity-executability gap", une relation non monotone entre la profondeur d'inférence résiduelle et le taux de succès, variable selon la tâche. Itérer davantage ne garantit donc pas de meilleures actions, et le budget d'inférence optimal dépend de l'état courant de la scène. Ce constat remet en question l'hypothèse implicite des pipelines VLA actuels, qui utilisent des horizons d'échantillonnage fixes indépendamment du contexte d'exécution. Pour les équipes produit et les intégrateurs, cela ouvre la voie à des politiques adaptatives capables d'allouer dynamiquement la puissance de calcul selon la difficulté perçue de la tâche, réduisant la latence sur les actions simples et renforçant la robustesse sur les cas complexes. π₀ est le modèle de fondation robotique de Physical Intelligence (Pi), startup américaine fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Stanford, dont Sergey Levine et Chelsea Finn. Le flow-matching, popularisé par le π₀ original (arXiv:2410.24164, octobre 2024), est aujourd'hui le paradigme dominant pour le décodage d'actions dans les VLA, en concurrence avec la diffusion (Diffusion Policy) et les sorties autoregressives (OpenVLA, Octo). L'Equilibrium Matching s'inscrit dans la famille des méthodes à énergie implicite, proches des EBM (Energy-Based Models), et offre une profondeur d'inférence adaptable par conception. La prochaine étape logique sera une validation sur robot physique pour quantifier le sim-to-real gap de cette approche.

💬 Le +10 points sur RoboTwin, c'est bien, mais c'est pas là que ça devient intéressant. Le vrai résultat c'est ce qu'ils appellent le stationarity-executability gap : itérer davantage ne garantit pas de meilleures actions, et le budget optimal varie selon la tâche, pas selon un horizon fixe décidé à l'avance. Si ça tient sur hardware réel, ça remet en question la logique de base de tous les pipelines VLA actuels.

RechercheOpinion
1 source
LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante
138arXiv cs.RO 

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

Des chercheurs ont publié sur arXiv (arXiv:2511.02239) LACY, un cadre unifié reposant sur un modèle vision-langage (VLM) qui introduit une cartographie bidirectionnelle entre instructions textuelles et actions robotiques. Contrairement aux architectures VLA classiques qui se limitent à traduire du langage vers des actions (L2A), LACY entraîne simultanément trois tâches complémentaires : la génération d'actions paramétrées à partir d'une instruction (L2A), l'explication en langage naturel d'une action observée (A2L), et la vérification de cohérence sémantique entre deux descriptions (L2C). Le système a été évalué sur des tâches de pick-and-place en simulation et en environnement réel, où il améliore le taux de succès de 56,46 % en moyenne par rapport aux baselines. Un mécanisme d'augmentation active cible les cas à faible confiance pour générer et filtrer automatiquement de nouvelles données d'entraînement, sans annotation humaine supplémentaire. L'intérêt principal de LACY pour les intégrateurs et les équipes R&D tient à sa boucle auto-améliorante : le robot ne se contente plus d'exécuter, il peut rationaliser ses propres gestes, ce qui enrichit les représentations internes et réduit la dépendance aux datasets labellisés manuellement. La capacité A2L constitue une avancée pour la supervision et le débogage en production, car un système capable d'expliquer ses actions facilite la validation humaine. Sur le plan de la généralisation, le signal L2C fonctionne comme un filtre de cohérence sémantique qui élimine les augmentations bruyantes, un problème récurrent dans l'entraînement sim-to-real. Cela dit, les expériences restent limitées au pick-and-place, tâche canonique mais peu représentative de la complexité des workflows industriels réels. LACY s'inscrit dans une vague de travaux VLA post-RT-2 qui cherchent à dépasser le paradigme unidirectionnel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA explorent des espaces proches mais n'intègrent pas de branche A2L explicite. La page projet (vla2026.github.io/LACY) laisse entrevoir des extensions vers des tâches de manipulation plus complexes. L'absence de données sur les temps de cycle, les charges utiles ou les plateformes matérielles testées rend difficile toute évaluation directe pour un déploiement industriel, et le saut de 56,46 % mérite d'être lu avec prudence tant que les conditions expérimentales complètes ne sont pas publiées.

💬 La boucle auto-améliorante, c'est le vrai truc ici : le robot cible ses propres points faibles et génère de nouvelles données sans qu'on ait à labelliser quoi que ce soit. Le +56% de succès sonne bien, bon, il faut lire les conditions expérimentales complètes avant de s'emballer. Et la capacité A2L (le robot qui explique ses propres gestes en langage naturel) va vraiment servir en prod, pas juste dans les démos.

RechercheOpinion
1 source
Flux compositionnelle sparse : assemblage géométrique à partir de primitives de mouvement
139arXiv cs.RO 

Flux compositionnelle sparse : assemblage géométrique à partir de primitives de mouvement

Des chercheurs publient sur arXiv (réf. 2605.23341) un cadre de génération de trajectoires pour systèmes robotiques embarqués baptisé Sparse Compositional Flow Matching (SCFM). Contrairement aux modèles génératifs classiques qui produisent une trajectoire point par point comme un signal dense et monolithique, SCFM assemble explicitement des "primitives de mouvement" réutilisables via deux modules couplés : le Motion-Primitive Dictionary Learning, qui attribue à chaque atome un masque de longueur appris et des indicateurs binaires de démarrage, et le Structural Sparse Flow Matching with Geometric Constraints, qui génère une matrice de placement sparse via une loss géométrique différentiable forçant la continuité spatiale et la contiguïté temporelle aux jonctions. Évalué sur les benchmarks Open X-Embodiment et 3DMoTraj, le framework améliore l'ADE (Average Displacement Error) de 19,2 % et le FDE (Final Displacement Error) de 21,0 % par rapport au meilleur concurrent, ramenant le ratio FDE/ADE de 1,8 à 1,07. L'apport principal est de rendre la génération de trajectoires structurée et décomposable. Les approches actuelles par diffusion ou flow matching classique opèrent dans un espace de haute dimension sans contraintes de structure temporelle, ce qui rend le planificateur difficile à interpréter et à adapter à de nouvelles tâches. Avec SCFM, le dictionnaire de primitives fonctionne comme une bibliothèque de sous-routines motrices réutilisables entre tâches apparentées, et la loss géométrique garantit la cohérence aux jonctions de primitives. Pour un intégrateur ou un architecte de système robotique, cela facilite la décomposition explicite des tâches et le débogage ciblé des erreurs de trajectoire, des gains concrets au-delà de la métrique de benchmark. Ce travail prolonge le courant des modèles génératifs structurés, qui contestent depuis plusieurs années l'efficacité des représentations denses non supervisées. Le flow matching, popularisé à partir de 2022 par les travaux de Lipman et al., s'impose comme alternative aux modèles de diffusion pour sa vitesse d'inférence et fait l'objet d'adaptations actives en robotique embarquée, notamment dans Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. SCFM reste une contribution académique évaluée sur données publiques, sans déploiement ni pilote annoncé. Les prochaines étapes naturelles incluent une validation sur matériel réel et une intégration dans des pipelines VLA (vision-language-action), où la décomposition en primitives explicites pourrait faciliter le raisonnement de haut niveau des modèles de fondation.

RecherchePaper
1 source
Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles
140The Decoder 

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles

Trois figures majeures de l'intelligence artificielle ont exprimé des visions radicalement divergentes sur l'état actuel de la technologie. Yann LeCun, directeur de la recherche en IA chez Meta, affirme que les systèmes actuels ne sont pas véritablement intelligents. Demis Hassabis, PDG de Google DeepMind, pense au contraire que l'humanité se trouve déjà "dans les contreforts de la singularité". Oriol Vinyals, co-responsable du projet Gemini chez Google DeepMind, propose une lecture intermédiaire : les modèles d'aujourd'hui auraient semblé être une AGI il y a sept ans, mais ils demeurent incapables d'apprendre par l'expérience ou de produire de réelles percées scientifiques. Ce désaccord entre chercheurs de premier plan révèle une fracture profonde sur la trajectoire réelle de l'IA. La question n'est pas anodine : selon que l'on adopte la vision de LeCun ou celle de Hassabis, les priorités de recherche, les stratégies d'investissement et les cadres réglementaires changent radicalement. Des milliards de dollars et la crédibilité des grands laboratoires, OpenAI, Anthropic, Google DeepMind, Meta AI, sont directement en jeu. Ce débat s'inscrit dans une réflexion plus large sur ce que signifie réellement l'intelligence artificielle générale. LeCun critique depuis longtemps les grandes architectures de type transformeur, jugées insuffisantes pour atteindre une compréhension réelle du monde. Hassabis, lui, a prédit que l'AGI pourrait émerger d'ici quelques années. La position nuancée de Vinyals suggère que si les progrès sont indéniables, les verrous fondamentaux, notamment l'adaptation continue et la découverte autonome, demeurent entiers.

UELe débat sur la trajectoire réelle de l'IA influence indirectement le calibrage réglementaire européen, notamment les seuils de risque et les obligations de transparence prévus par l'AI Act.

💬 LeCun et Hassabis se contredisent frontalement, et c'est en fait le signal le plus intéressant de cette actu. Quand les deux personnes qui orientent des milliards de dollars de recherche n'arrivent pas à se mettre d'accord sur l'état actuel de l'IA, tous les cadres réglementaires qui essaient de calibrer des "niveaux de risque" reposent sur du vent. La position de Vinyals, nos modèles auraient bluffé tout le monde en 2019 mais les vrais verrous restent entiers, c'est la seule qui ressemble à quelque chose de solide.

RechercheOpinion
1 source
Des chercheurs ont laissé Claude Code découvrir des algorithmes d'IA qu'un humain n'aurait probablement pas conçus
141The Decoder 

Des chercheurs ont laissé Claude Code découvrir des algorithmes d'IA qu'un humain n'aurait probablement pas conçus

Des chercheurs de l'Université du Maryland, de Google, de Meta et d'autres institutions ont mis au point AutoTTS, un système qui confie à un agent de codage - Claude Code d'Anthropic - la tâche de concevoir de façon autonome des algorithmes pour améliorer le raisonnement des modèles d'IA. En 160 minutes et pour seulement 40 dollars, l'agent a découvert un algorithme inédit qui réduit d'environ 70 % la charge de calcul par rapport à la méthode self-consistency standard, tout en atteignant une précision équivalente. Ce résultat change la donne sur la façon dont les algorithmes d'optimisation pourraient être développés. La méthode self-consistency, qui consiste à générer plusieurs réponses et à en extraire la plus cohérente, est largement utilisée pour améliorer la fiabilité des grands modèles de langage, mais elle reste coûteuse en ressources. Réduire ce coût de 70 % sans perte de précision représente un gain concret pour les équipes qui déploient ces systèmes à grande échelle, et soulève une question plus profonde : certains algorithmes utiles sont peut-être inaccessibles à l'intuition humaine. Ce travail s'inscrit dans la tendance croissante du test-time scaling, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement. Confier à un agent IA la conception d'algorithmes que des chercheurs humains n'auraient probablement pas imaginés ouvre une nouvelle frontière dans la méta-optimisation. La question qui se pose désormais est de savoir jusqu'où cette automatisation peut s'étendre, et si d'autres domaines de la recherche en IA pourraient bénéficier d'une approche similaire.

💬 40 dollars, 160 minutes, et un algo qui réduit de 70% les coûts de calcul qu'aucun chercheur n'avait pensé à chercher là. C'est ça qui est troublant, pas la perf en elle-même : certains espaces de solutions sont peut-être hors de portée de l'intuition humaine, et on commence juste à s'en rendre compte. Reste à voir si ça tient hors benchmark.

RecherchePaper
1 source
NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta
142MarkTechPost 

NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta

NVIDIA AI a publié Gated DeltaNet-2, une nouvelle couche d'attention linéaire conçue pour résoudre un problème précis dans les modèles de langage à mémoire récurrente. Le modèle a été entraîné à 1,3 milliard de paramètres sur 100 milliards de tokens issus du jeu de données FineWeb-Edu. Selon les benchmarks présentés dans l'article technique, il surpasse ses concurrents directs : Mamba-2, Gated DeltaNet, KDA (Kimi Delta Attention) et Mamba-3. L'innovation centrale repose sur l'introduction de deux portes vectorielles indépendantes : une porte d'effacement par canal appliquée à l'axe des clés, et une porte d'écriture par canal appliquée à l'axe des valeurs. Les deux sont produites par des projections sigmoid de la représentation du token. Le code et l'article sont disponibles publiquement via le dépôt NVlabs sur GitHub, avec des kernels Triton fusionnés pour l'entraînement sur GPU Hopper. L'enjeu est fondamental pour la prochaine génération de modèles de langage efficaces. L'attention linéaire remplace le cache clé-valeur non borné de l'attention softmax classique par un état récurrent de taille fixe, ce qui ramène le coût de traitement des séquences à une complexité linéaire et la mémoire de décodage à une constante. Mais éditer cet état compressé sans brouiller les associations déjà mémorisées est précisément le goulet d'étranglement que les architectures précédentes n'avaient pas résolu proprement. Les modèles antérieurs utilisaient une seule valeur scalaire pour contrôler à la fois l'effacement de l'ancien contenu et l'écriture du nouveau, deux opérations qui agissent sur des axes différents de l'état matriciel. Gated DeltaNet-2 sépare ces deux décisions : chaque canal peut indépendamment choisir combien il efface et combien il écrit, ce qui augmente la capacité expressive du modèle sans alourdir l'architecture globale. Cette publication s'inscrit dans une compétition technique dense autour du remplacement ou de la complémentation de l'attention softmax. DeltaNet avait introduit la règle delta, qui effectue une mise à jour active de l'état en soustrayant la valeur actuellement associée à une clé donnée. Mamba-2 avait ajouté un mécanisme d'oubli global scalaire dépendant des données. KDA, développé par l'équipe de Kimi (Moonshot AI), avait affiné le côté oubli avec un vecteur par canal, mais laissait la partie écriture avec un scalaire unique. Gated DeltaNet-2 généralise ces deux travaux : les modèles KDA et Gated DeltaNet sont mathématiquement récupérables comme cas particuliers lorsque les portes se réduisent à des scalaires identiques. NVIDIA positionne ainsi cette architecture comme un surensemble propre de l'existant, avec une implémentation hybride qui combine blocs récurrents et structure Transformer standard, ouvrant la voie à des modèles longs contextes à la fois rapides à l'inférence et précis.

UEL'architecture étant publiée en open source avec des kernels Triton, les équipes de recherche françaises et européennes peuvent l'intégrer directement dans leurs travaux sur les modèles de langage à complexité linéaire.

💬 Deux portes au lieu d'un scalaire, ça change pas le monde mais ça ferme proprement un trou que tout le monde contournait. Effacer et écrire dans l'état récurrent avec la même valeur, c'était une limitation un peu honteuse qui traînait depuis DeltaNet. Open source, kernels Triton inclus, les labos qui bossent sur l'attention linéaire vont s'en emparer.

RecherchePaper
1 source
Les agents IA ont besoin d'un terminal, pas seulement d'une base vectorielle
143VentureBeat AI 

Les agents IA ont besoin d'un terminal, pas seulement d'une base vectorielle

Des chercheurs de plusieurs universités ont publié une étude proposant une nouvelle approche pour améliorer les capacités des agents d'intelligence artificielle : la "Direct Corpus Interaction" (DCI). Plutôt que de passer par une base de données vectorielle classique, cette technique permet aux agents d'interagir directement avec les données brutes via des outils en ligne de commande standard comme grep, find, cat ou des scripts Python légers. L'idée centrale est simple : donner à l'agent un accès terminal plutôt qu'un index sémantique figé, lui permettant de chercher des chaînes exactes, des codes d'erreur, des numéros de version ou des chemins de fichiers que les systèmes RAG traditionnels peinent à retrouver fidèlement. L'impact concret est significatif pour les environnements d'entreprise où les données évoluent en permanence. Les index vectoriels représentent toujours un instantané d'un moment passé, coûteux à reconstruire et jamais tout à fait à jour. En présence de rapports financiers quotidiens, de logs en direct, de commits de code ou de tickets de support, un agent DCI raisonne sur l'état actuel du système plutôt que sur l'index d'hier. Les chercheurs proposent deux variantes : DCI-Agent-Lite, conçu comme une solution légère, et une version plus complète pour des tâches plus complexes. L'agent peut enchaîner des commandes shell en pipeline pour combiner plusieurs indices faibles, vérifier une hypothèse immédiatement en inspectant les lignes entourant un résultat, ou filtrer des fichiers selon plusieurs critères simultanément, ce qu'un retriever sémantique ne peut pas faire en une seule passe. La recherche met le doigt sur une limite structurelle des systèmes RAG : la compression de l'accès à l'information en une seule étape de similarity search crée un goulot d'étranglement. Si une preuve critique est éliminée lors de ce filtrage initial, aucune capacité de raisonnement en aval, aussi sophistiquée soit-elle, ne peut la récupérer. C'est particulièrement problématique dans les workflows multi-étapes où l'agent doit réviser ses hypothèses dynamiquement après avoir observé des résultats partiels. DCI ne remplace pas nécessairement les embeddings pour le rappel sémantique large, mais comble un angle mort précis : les détails de longue traîne, les contraintes lexicales exactes, les données à forte volatilité. À mesure que les agents IA s'intègrent dans des environnements de production réels, cette distinction entre "ce que le modèle sait raisonner" et "ce que le système d'accès lui laisse voir" devient un enjeu central pour les équipes d'ingénierie.

💬 On passe des mois à tuner des embeddings pour du RAG, et la solution c'est... donner un terminal à l'agent. Bon, sur le papier c'est un peu gros dit comme ça, mais le problème pointé est réel : quand tes logs changent toutes les heures, ton index vectoriel est déjà périmé au moment où tu l'interroges. C'est le genre de truc que les équipes infra savent depuis longtemps, content de voir la recherche en faire une approche formelle.

RecherchePaper
1 source
Google I/O illustre comment la science pilotée par l'IA change de trajectoire
144MIT Technology Review 

Google I/O illustre comment la science pilotée par l'IA change de trajectoire

Lors du keynote Google I/O de mardi, Demis Hassabis, PDG de Google DeepMind, a déclaré que nous nous trouvons actuellement "au pied des collines de la singularité". Le moment fort de son intervention était une vidéo montrant comment WeatherNext, le logiciel de prévision météorologique de Google, avait fourni une alerte précoce sur l'atterrissage catastrophique de l'ouragan Melissa en Jamaïque l'an dernier, sauvant potentiellement des vies. La même semaine, OpenAI annonçait que l'un de ses modèles avait réfuté une conjecture mathématique importante, ce que certains mathématiciens considèrent comme la contribution la plus significative de l'IA générative aux mathématiques à ce jour. En parallèle, Isomorphic Labs, filiale de Google utilisant AlphaFold pour développer de nouveaux médicaments, levait 2 milliards de dollars en Série B. Ces annonces illustrent une tension croissante au coeur de l'IA scientifique : d'un côté, des outils spécialisés et entraînés pour résoudre des problèmes précis, comme WeatherNext ou AlphaFold (qui a valu le prix Nobel à des chercheurs de DeepMind et dont les prédictions de structures de protéines sont utilisées par plus de trois millions de chercheurs dans le monde) ; de l'autre, des systèmes agentiques basés sur des LLM, capables de mener des projets de recherche de pointe avec une supervision humaine minimale, voire nulle. Cette deuxième vision alimente aujourd'hui une grande part de l'enthousiasme autour de l'IA, notamment autour de l'idée d'une amélioration récursive, où les systèmes d'IA deviendraient les principaux moteurs de leur propre progression. Pushmeet Kohli, chef scientifique de Google Cloud, l'a formulé cette semaine dans la revue Daedalus : "Nous nous dirigeons vers une IA qui ne se contente plus de faciliter la science, mais qui commence à faire de la science." Des signes concrets de réorientation des ressources humaines et budgétaires chez Google confirment cette tendance. Le Los Angeles Times a révélé le mois dernier que John Jumper, le chercheur Google Fellow et co-lauréat du Nobel pour AlphaFold, travaille désormais sur l'IA appliquée au code et non plus sur des outils scientifiques spécialisés. Ce pivot n'est pas anodin : Google subit actuellement une pression concurrentielle de la part d'Anthropic et OpenAI sur le terrain des outils de développement logiciel, et les capacités de codage sont précisément ce qui conditionne le succès des systèmes agentiques de recherche. Si Google ne semble pas abandonner ses outils spécialisés, avec AlphaGenome et AlphaEarth Foundations sortis l'été dernier et une nouvelle version de WeatherNext en novembre, la direction stratégique s'oriente clairement vers une IA capable de faire de la science de manière autonome, un virage qui pourrait redéfinir en profondeur le rôle des chercheurs humains.

UELa réorientation stratégique de Google DeepMind vers une IA autonome capable de faire de la science pourrait fragiliser les laboratoires publics européens qui dépendent d'outils spécialisés comme AlphaFold, utilisé par plus de trois millions de chercheurs dans le monde dont une large part en Europe.

💬 Le vrai signal, c'est pas la vidéo de l'ouragan, c'est John Jumper qui bosse maintenant sur des outils de code. Quand tu déplaces un co-lauréat du Nobel de la recherche spécialisée vers le terrain où Anthropic et OpenAI te talonnent, tu dis quelque chose sur où est la vraie pression en ce moment. Reste à voir si les trois millions de chercheurs qui utilisent AlphaFold au quotidien vont se retrouver avec des outils en pilotage automatique, ou juste moins maintenus.

RecherchePaper
1 source
Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif
145MarkTechPost 

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper
1 source
Attribution et contrôle des artefacts aux frontières de segments dans l'espace du bruit
146arXiv cs.RO 

Attribution et contrôle des artefacts aux frontières de segments dans l'espace du bruit

Une équipe de chercheurs publie sur arXiv (2506.11642v2) une analyse mécaniste des discontinuités d'exécution aux frontières de blocs d'actions dans les politiques visuomotrices génératives à action chunking. Cette technique, adoptée dans des systèmes comme Diffusion Policy (MIT/Columbia) ou ACT (Action Chunked Transformers, Stanford), consiste à prédire et exécuter plusieurs actions futures en un seul bloc plutôt qu'action par action. Les auteurs montrent d'abord que les métriques d'artefacts de frontière permettent de séparer de façon stable les épisodes réussis des épisodes en échec. Dans des politiques stochastiques, maintenir fixe le contexte d'observation et varier uniquement le bruit latent suffit à moduler systématiquement l'intensité de l'artefact. Sur un même checkpoint Diffusion Policy, la comparaison entre DDPM, DDPM à variance nulle et DDIM confirme que cette contrôlabilité locale dépend de l'intégrité du chemin d'information du bruit initial vers la sortie d'action. Dans un contexte clé favorisant les artefacts élevés, sélectionné par validation matched-continuation sur données tenues à l'écart, le taux de succès passe de 0,033 à 0,717. Ce résultat remet en cause une hypothèse tenace dans la communauté de la robotique apprenante : l'artefact de frontière de bloc n'est pas un simple sous-produit d'exécution à minimiser systématiquement, mais une variable dans l'espace bruit qui peut être attribuée, contrôlée et liée mécanistiquement au résultat de la tâche. Plus troublant encore, la direction préférentielle s'inverse selon le contexte d'exécution local : certains états obtiennent de meilleurs résultats sous artefact faible, d'autres sous artefact élevé, au sein d'une même tâche. Pour les intégrateurs robotiques, cela ouvre la voie à des stratégies d'inférence adaptatives où la sélection du bruit latent devient un levier de performance sans modifier ni réentraîner les modèles. L'action chunking équipe aujourd'hui de nombreuses politiques de manipulation en recherche, dont pi-0 (Physical Intelligence), et commence à apparaître dans des contextes de production. Le débat sur la robustesse à l'exécution et le sim-to-real gap reste central pour les équipes industrielles. Cette analyse fournit un outil diagnostique concret -- les métriques d'artefact comme signal pronostic d'échec -- et suggère que l'optimisation à l'inférence plutôt que la seule modification architecturale pourrait améliorer la fiabilité sur des tâches de manipulation fine. Les prochaines étapes naturelles incluent la généralisation à d'autres architectures VLA (vision-language-action) et la validation sur des plateformes matérielles réelles hors contexte de laboratoire.

💬 Passer de 3% à 72% de succès sur le même checkpoint juste en variant le bruit latent, sans toucher au modèle, c'est pas un détail de recherche. Ce que la communauté traitait comme un artefact à minimiser devient un levier d'optimisation à l'inférence, et ça change la façon dont on va aborder le débogage en prod. Bon, faut encore que ça tienne sur du matériel réel hors labo.

RechercheOpinion
1 source
EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs
147arXiv cs.RO 

EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs

Une équipe de chercheurs a déposé sur arXiv (réf. 2605.21862) EvoScene-VLA, une nouvelle architecture de contrôle robotique pour les politiques vision-langage-action (VLA) en mode "chunked", où le robot planifie plusieurs gestes à la fois plutôt qu'une seule commande par observation. Sur 31 tâches de manipulation du benchmark RoboTwin, le système atteint 89,1 % de réussite en évaluation fixe (contre 87,2 % pour les baselines) et 88,5 % en évaluation aléatoire (contre 86,1 %). Des tests sur le robot réel Galaxea R1-Lite confirment que l'architecture surpasse l'ensemble des approches comparées. Le mécanisme central est un "préfixe de scène" récurrent : un vecteur compact et géométriquement informé, mis à jour après chaque chunk d'actions, qui transporte l'état de la scène d'un appel au modèle au suivant. L'apport technique comble un angle mort structurel des VLA chunkées actuelles : celles-ci reconditionent chaque séquence d'actions uniquement sur l'observation visuelle instantanée, sans tenir compte des modifications de géométrie induites par les gestes précédents, contacts, occultations ou déplacements d'objets. Les approches spatiales (amélioration de la géométrie par frame) et temporelles (agrégation de frames passées) n'adressent pas ce problème entre les appels au VLM. EvoScene-VLA maintient un prior de scène persistant et mis à jour après chaque action : le modèle fusionne l'observation fraîche avec ce prior, produit le chunk suivant, et génère une mise à jour compacte de la scène. Pour les intégrateurs travaillant sur la manipulation dextre ou les séquences longues, c'est une démonstration que l'architecture du décodeur peut être déterminante, indépendamment du volume de données d'entraînement. Ce preprint s'inscrit dans la vague de recherche post-π0 (Physical Intelligence) et GR00T N2 (NVIDIA), où les VLA passent du stade académique à celui de politiques testées sur hardware réel. Le Galaxea R1-Lite est une plateforme de recherche de la startup chinoise Galaxea Robotics, positionnée comme alternative ouverte aux robots de labo propriétaires. La publication ne mentionne ni partenaire industriel ni calendrier de déploiement commercial : il s'agit d'une contribution académique, pas d'une annonce produit. Les gains restent modestes en valeur absolue, autour de deux points sur RoboTwin, et les deux modules d'entraînement auxiliaires (Scene Predictor et Geometric Anchor) sont abandonnés à l'inférence, signe d'une conception orientée efficacité au déploiement. La prochaine étape naturelle serait une évaluation sur des tâches out-of-distribution ou en environnement industriel non structuré.

RechercheOpinion
1 source
VSAS-Bench : évaluation en temps réel des modèles d'assistants visuels en flux continu
148Apple Machine Learning 

VSAS-Bench : évaluation en temps réel des modèles d'assistants visuels en flux continu

Des chercheurs ont proposé VSAS-Bench, un nouveau cadre d'évaluation conçu spécifiquement pour les modèles de vision-langage (VLM) opérant en temps réel sur des flux vidéo continus. Contrairement aux benchmarks existants, qui évaluent les modèles dans des conditions hors ligne, c'est-à-dire sur des vidéos enregistrées et traitées après coup, VSAS-Bench cible un cas d'usage fondamentalement différent : celui des assistants visuels capables de percevoir et de répondre à un flux d'images en direct, de manière continue et sans interruption. Cette distinction est loin d'être anodine. Un modèle performant en mode hors ligne peut se révéler inutilisable en conditions réelles s'il répond avec retard ou si ses sorties manquent de cohérence d'une seconde à l'autre. VSAS-Bench introduit deux métriques inédites pour capturer ces dimensions : la proactivité, qui mesure la rapidité avec laquelle le modèle produit une réponse pertinente au bon moment, et la consistance, qui évalue la stabilité de ces réponses dans le temps. Ces critères sont essentiels pour des applications comme la surveillance automatique, l'assistance aux personnes ou les interfaces homme-machine en temps réel. Les VLM en streaming constituent un domaine en pleine émergence, porté par la montée en puissance des assistants embarqués et des robots dotés de perception visuelle. Jusqu'ici, l'absence de benchmarks adaptés freinait la comparaison objective entre systèmes. VSAS-Bench comble ce manque méthodologique et devrait accélérer la recherche sur les modèles capables de traiter des flux vidéo de façon proactive, ouvrant la voie à une nouvelle génération d'assistants visuels véritablement interactifs.

RecherchePaper
1 source
Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?
149MIT Technology Review 

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?

Le 21 mai 2026, MIT Technology Review a réuni trois de ses journalistes spécialisés, le rédacteur en chef Mat Honan, le senior editor IA Will Douglas Heaven et la reporter Grace Huckins, pour une table ronde enregistrée consacrée à une question centrale du moment : les IA peuvent-elles apprendre à véritablement comprendre le monde physique ? La discussion s'inscrit dans un mouvement de fond où les grands laboratoires misent sur les "world models", des systèmes capables de se représenter l'environnement réel plutôt que de simplement traiter du texte. L'enjeu est de taille : les grands modèles de langage (LLM) actuels montrent des limites structurelles dès qu'il s'agit d'interagir avec le monde physique, de planifier des actions ou d'anticiper les conséquences de décisions dans des environnements dynamiques. Les world models visent à combler ce fossé, en permettant à des robots, véhicules autonomes ou agents IA d'opérer avec une compréhension spatiale et causale du réel, une capacité que les LLM seuls ne possèdent pas. Le sujet mobilise des figures majeures de la recherche en IA, à commencer par Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une architecture alternative aux transformers pour atteindre cette intelligence "du monde réel". Des applications concrètes émergent déjà, comme l'utilisation des données de Pokémon Go pour offrir aux robots livreurs une cartographie centimètre par centimètre de l'environnement urbain. Le débat sur les world models est désormais au coeur des stratégies des grands acteurs de l'industrie.

UELe chercheur français Yann LeCun est l'une des figures centrales du débat sur les world models, un paradigme qui intéresse les laboratoires européens travaillant sur la robotique et les agents autonomes.

RecherchePaper
1 source
Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir
150VentureBeat AI 

Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir

Des chercheurs du Mind Lab et de plusieurs universités ont publié une technique appelée delta-mem, conçue pour doter les agents d'intelligence artificielle d'une mémoire de travail persistante sans modifier les paramètres du modèle sous-jacent. Le principe : comprimer l'historique des interactions d'un agent en une matrice de taille fixe, appelée OSAM (Online State of Associative Memory), mise à jour dynamiquement au fil des échanges. Le module résultant n'ajoute que 0,12 % des paramètres du modèle de base, contre 76,40 % pour la solution concurrente la plus répandue, tout en surpassant cette dernière sur les benchmarks exigeants en mémoire. Lors de la génération, le système ne réinjecte pas de texte brut dans le contexte : l'état caché du modèle est projeté dans la matrice pour récupérer les informations passées, ce qui réduit la latence et évite de saturer la fenêtre de contexte. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, un assistant de code qui perd le fil d'une session de débogage, ou un agent d'analyse de données qui réingère les mêmes informations à chaque étape, génère des coûts en tokens, de la latence et des workflows fragiles. Les deux solutions habituelles, élargir la fenêtre de contexte ou multiplier les appels RAG, montrent leurs limites dès que les interactions s'étalent sur de longues séquences : le coût computationnel de l'attention croit de façon quadratique avec la longueur de la séquence, et les modèles souffrent de ce que les chercheurs appellent le "context rot", une dégradation effective de la mémorisation malgré des fenêtres théoriques d'un million de tokens. Delta-mem offre une troisième voie : une mémoire interne, compacte et continuellement mise à jour, sans dépendance à un module externe. Ce travail s'inscrit dans un débat plus large sur l'architecture des agents autonomes. Les approches existantes se répartissent en trois catégories : la mémoire textuelle, limitée par la taille de la fenêtre et sujette à la perte d'information ; le RAG, qui introduit de la latence et des problèmes d'alignement ; et les adaptateurs paramétriques, statiques après l'entraînement et incapables d'intégrer de nouvelles informations en temps réel. Delta-mem se positionne comme une quatrième voie, paramétrique mais dynamique, opérant à l'intérieur du modèle gelé. Jingdi Lei, co-auteur de l'article, cite des cas concrets : un assistant de code qui doit retenir les conventions d'un projet, les étapes de débogage récentes ou les préférences d'un développeur sur toute la durée d'un workflow ; un agent d'analyse qui doit maintenir des hypothèses et des observations intermédiaires sur plusieurs appels d'outils successifs. La technique reste pour l'instant au stade de la recherche, mais elle pointe vers une architecture d'agent où la mémoire de travail est un composant de première classe, aussi central que le modèle lui-même.

RecherchePaper
1 source