Raisonnement adaptatif : les LLM savent quand…

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

48

1arXiv cs.RO

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Des chercheurs ont présenté Affordance-R1, un nouveau modèle d'intelligence artificielle conçu pour permettre aux robots de déterminer précisément comment saisir et manipuler des objets dans leur environnement. Publiée sur arXiv (référence 2508.06206), cette étude introduit le premier cadre unifié d'affordance grounding combinant l'apprentissage par renforcement avec un raisonnement de type chaîne de pensée (Chain-of-Thought, CoT). Le système s'appuie sur une variante de l'optimisation politique appelée GRPO (Group Relative Policy Optimization) et a été entraîné sur un nouveau jeu de données spécialement constitué pour l'occasion, baptisé ReasonAff. Malgré l'absence de données de raisonnement explicite durant l'entraînement, le modèle parvient à une généralisation zéro-shot convaincante et développe des capacités de raisonnement émergentes lors de l'inférence. Le code et le jeu de données sont disponibles publiquement sur GitHub. Cette avancée concerne directement la robotique incarnée, l'interaction humain-robot et la manipulation d'objets en environnement ouvert. L'enjeu central est la capacité d'un robot à identifier, sans entraînement préalable sur un objet donné, quelle zone précise saisir ou activer pour accomplir une tâche, par exemple tenir une tasse par son anse ou appuyer sur le bouton d'un appareil. Jusqu'ici, les modèles existants échouaient à transférer cette compréhension d'un objet à un autre, faute d'un raisonnement structuré. Affordance-R1 comble ce manque en permettant une généralisation hors-domaine (OOD), ce qui pourrait accélérer le déploiement de robots polyvalents dans des environnements industriels, domestiques ou médicaux. Le concept d'affordance, emprunté à la psychologie cognitive, désigne les actions qu'un objet permet naturellement à un agent. Dans le domaine de la robotique IA, le défi est d'apprendre à un modèle à percevoir ces possibilités d'action de façon générique, sans dépendre d'une liste exhaustive d'objets connus. Les approches précédentes reposaient sur de la supervision directe, limitant leur adaptabilité face à des situations inédites. L'utilisation du GRPO, une méthode d'apprentissage par renforcement popularisée notamment par DeepSeek, représente ici un changement de paradigme : plutôt que d'enseigner explicitement le raisonnement, on récompense le modèle selon des critères de format, de perception et de cognition. Cette approche rejoint une tendance plus large visant à doter les grands modèles multimodaux d'une véritable capacité de planification physique dans le monde réel.

RecherchePaper

1 source

48

2Apple Machine Learning

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

Des chercheurs ont publié LaDiR (Latent Diffusion Reasoner), un nouveau cadre de raisonnement qui couple les grands modèles de langage existants à des modèles de diffusion latente. L'objectif : dépasser les limites inhérentes à la génération autoreégressive, en introduisant une étape de raffinement itératif dans un espace de représentation continu structuré, avant que le modèle ne produise sa réponse finale en texte. Le problème visé est fondamental. Lorsqu'un LLM génère token par token, il ne peut pas revenir modifier ce qu'il a déjà écrit, une contrainte qui pénalise les tâches de raisonnement complexes où la solution exige d'explorer plusieurs pistes et de corriger des erreurs en cours de route. LaDiR contourne cette limite en faisant "mûrir" le raisonnement dans un espace latent continu, via un processus de diffusion, avant de le transcrire en langage naturel. Cela permet une exploration plus diverse et un affinement global de la chaîne de pensée, impossible avec le décodage autorégressif classique. L'approche s'inscrit dans une vague de recherches cherchant à améliorer le raisonnement des LLMs au-delà du simple chain-of-thought (CoT), popularisé notamment par les modèles o1 d'OpenAI et R1 de DeepSeek. Contrairement aux méthodes qui allongent simplement le texte intermédiaire, LaDiR exploite l'espace continu des représentations pour structurer ce raisonnement de façon plus riche. La compatibilité avec des modèles existants, sans réentraînement complet, constitue un avantage pratique notable si les résultats se confirment sur des benchmarks de référence.

RecherchePaper

1 source

Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)

55

3arXiv cs.RO

Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 22 avril 2026 un article sur arXiv (référence 2604.18000) introduisant BeTTER, un benchmark de diagnostic conçu pour tester le raisonnement incarné réel dans les modèles de type Vision-Language-Action (VLA). L'objectif : vérifier si les taux de succès élevés affichés par des modèles comme pi-0, OpenVLA ou RoboVLMs sur les benchmarks standards reflètent une véritable intelligence physique, ou un artefact d'évaluation. BeTTER applique des interventions causales ciblées, modifications de la disposition spatiale, extrapolation temporelle, tout en isolant cinématiquement les échecs de raisonnement de haut niveau des limites d'exécution motrice de bas niveau. Résultat : les VLA de pointe s'effondrent dans des scénarios dynamiques, exhibant des raccourcis lexico-cinématiques (le modèle associe des mots à des patterns moteurs sans vraiment "comprendre"), une inertie comportementale, et un effondrement de la représentation sémantique. Ces résultats remettent en cause l'un des postulats les plus optimistes du secteur : que les hauts scores sur benchmarks constituent une preuve de généralisation. L'analyse mécaniste des auteurs identifie deux goulots d'étranglement architecturaux structurels, la compression de capacité et le sous-échantillonnage myope, qui dégradent systématiquement la représentation sémantique fondamentale du modèle. En d'autres termes, les architectures VLA actuelles sont structurellement contraintes à sacrifier le raisonnement de haut niveau pour maintenir la fréquence de contrôle nécessaire à l'exécution motrice en temps réel. Les protocoles d'évaluation trop statiques masquent cette dégradation en permettant au modèle d'overfitter aux priors sensorimoteurs du dataset, ce qui est un signal d'alarme direct pour les intégrateurs industriels qui évaluent ces systèmes avant déploiement. La famille VLA a connu une accélération marquée depuis fin 2023, avec les travaux de Physical Intelligence (pi-0), Google DeepMind (RT-2, puis Helix en collaboration avec Figure AI), et des efforts académiques nombreux autour de modèles open-source comme OpenVLA. Le gap benchmark-réalité est un problème récurrent en robotique, le sim-to-real transfer en est la version la plus connue, mais BeTTER le documente cette fois au niveau du raisonnement cognitif plutôt que de la dynamique physique. Les auteurs valident leurs conclusions sur robot réel, ce qui exclut l'hypothèse d'un artefact de simulation. La prochaine étape logique pour le secteur est de repenser les architectures VLA pour résoudre la tension structurelle entre contrôle haute fréquence et raisonnement sémantique robuste, probablement via des approches hiérarchiques déjà explorées par des équipes comme Wandercraft côté locomotion, ou Enchanted Tools pour la manipulation expressive.

UEWandercraft et Enchanted Tools, acteurs français actifs sur la locomotion et la manipulation expressive, sont directement concernés par les goulots d'étranglement architecturaux identifiés par BeTTER, qui constitue un signal d'alarme pour tout intégrateur européen évaluant des systèmes VLA avant déploiement industriel.

RechercheOpinion

1 source

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

44

4arXiv cs.RO

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

Des chercheurs ont publié le 22 avril 2026 un préprint sur arXiv (arXiv:2604.16440) présentant LatentMimic, un cadre d'apprentissage de la locomotion pour robots quadrupèdes conçu pour concilier deux objectifs jusqu'ici antagonistes : reproduire fidèlement le style de marche issu de données de capture de mouvement (mocap) et s'adapter dynamiquement à des terrains irréguliers. L'approche repose sur une imitation dans l'espace latent : plutôt que de contraindre le robot à répliquer exactement les poses géométriques enregistrées, LatentMimic minimise la divergence marginale entre la distribution état-action de la politique apprise et un prior mocap entraîné séparément. Le système intègre également un module d'adaptation au terrain équipé d'un buffer de replay dynamique, destiné à corriger les dérives de distribution lorsque le robot passe d'un type de sol à un autre. Les évaluations portent sur quatre styles locomoteurs et quatre types de terrain, démontrant des taux de franchissement supérieurs aux méthodes de suivi de mouvement actuelles tout en conservant une haute fidélité stylistique. Ce travail s'attaque à un compromis fondamental qui freine le déploiement des robots quadrupèdes dans des environnements non structurés : les méthodes d'imitation stricte bloquent l'adaptabilité terrain, tandis que les politiques terrain-centriques sacrifient la naturalité du mouvement. En découplant la topologie de la foulée des contraintes géométriques d'extrémité, LatentMimic suggère qu'il est possible d'obtenir les deux à la fois. Pour les intégrateurs industriels et les équipes robotique, cela ouvre la voie à des contrôleurs plus robustes sur sols accidentés, escaliers ou surfaces déformables, sans devoir re-collecter des données mocap spécifiques à chaque terrain. La locomotion quadrupède par imitation est un axe de recherche actif depuis plusieurs années, avec des travaux notables comme AMP (Adversarial Motion Priors, Berkeley 2021) ou les méthodes sim-to-real de DeepMind sur ANYmal et Spot. LatentMimic s'inscrit dans cette lignée en proposant une relaxation conditionnelle plus fine du suivi de pose. Le paper est pour l'instant un préprint non relu par les pairs, et les résultats sont présentés uniquement en simulation et environnements contrôlés, le gap sim-to-real reste à valider sur hardware réel. Aucun partenariat industriel ni timeline de déploiement n'est mentionné. Les prochaines étapes naturelles seraient une validation sur plateformes physiques (Unitree, Boston Dynamics Spot) et une extension à des styles locomoteurs plus complexes comme le trot ou le galop en terrain extrême.

RecherchePaper

1 source

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

À lire aussi

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation