RecherchearXiv cs.RO · 28 avr. 2026, 07:00· 2 min de lecture

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Des chercheurs ont présenté Affordance-R1, un nouveau modèle d'intelligence artificielle conçu pour permettre aux robots de déterminer précisément comment saisir et manipuler des objets dans leur environnement. Publiée sur arXiv (référence 2508.06206), cette étude introduit le premier cadre unifié d'affordance grounding combinant l'apprentissage par renforcement avec un raisonnement de type chaîne de pensée (Chain-of-Thought, CoT). Le système s'appuie sur une variante de l'optimisation politique appelée GRPO (Group Relative Policy Optimization) et a été entraîné sur un nouveau jeu de données spécialement constitué pour l'occasion, baptisé ReasonAff. Malgré l'absence de données de raisonnement explicite durant l'entraînement, le modèle parvient à une généralisation zéro-shot convaincante et développe des capacités de raisonnement émergentes lors de l'inférence. Le code et le jeu de données sont disponibles publiquement sur GitHub.

Cette avancée concerne directement la robotique incarnée, l'interaction humain-robot et la manipulation d'objets en environnement ouvert. L'enjeu central est la capacité d'un robot à identifier, sans entraînement préalable sur un objet donné, quelle zone précise saisir ou activer pour accomplir une tâche, par exemple tenir une tasse par son anse ou appuyer sur le bouton d'un appareil. Jusqu'ici, les modèles existants échouaient à transférer cette compréhension d'un objet à un autre, faute d'un raisonnement structuré. Affordance-R1 comble ce manque en permettant une généralisation hors-domaine (OOD), ce qui pourrait accélérer le déploiement de robots polyvalents dans des environnements industriels, domestiques ou médicaux.

Le concept d'affordance, emprunté à la psychologie cognitive, désigne les actions qu'un objet permet naturellement à un agent. Dans le domaine de la robotique IA, le défi est d'apprendre à un modèle à percevoir ces possibilités d'action de façon générique, sans dépendre d'une liste exhaustive d'objets connus. Les approches précédentes reposaient sur de la supervision directe, limitant leur adaptabilité face à des situations inédites. L'utilisation du GRPO, une méthode d'apprentissage par renforcement popularisée notamment par DeepSeek, représente ici un changement de paradigme : plutôt que d'enseigner explicitement le raisonnement, on récompense le modèle selon des critères de format, de perception et de cognition. Cette approche rejoint une tendance plus large visant à doter les grands modèles multimodaux d'une véritable capacité de planification physique dans le monde réel.

Dans nos dossiers

DeepSeek

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM

Des chercheurs ont présenté BalCapRL, un nouveau cadre d'entraînement par apprentissage par renforcement (RL) conçu pour améliorer la génération automatique de légendes d'images par les grands modèles de langage multimodaux (MLLM). Face aux limites des méthodes RL existantes, BalCapRL cherche à équilibrer plusieurs dimensions de qualité simultanément dans la description d'images, une tâche considérée comme fondamentale en vision par ordinateur et qui a gagné en importance avec l'essor des MLLM. Les approches RL actuelles pour la génération de légendes souffrent d'un défaut structurel : en optimisant une métrique unique orientée utilité, elles produisent des descriptions trop longues, bruitées ou carrément hallucinées. Ces travers ont des conséquences concrètes pour les applications industrielles qui dépendent de légendes fiables, comme l'accessibilité numérique, l'indexation d'images ou les moteurs de recherche visuelle. BalCapRL propose un cadre plus équilibré qui préserve plusieurs critères de qualité en même temps, évitant les compromis indésirables qu'introduisent les métriques d'évaluation trop étroites. La génération de légendes d'images a connu un regain d'intérêt avec l'essor de modèles comme GPT-4V, LLaVA ou Gemini, capables de décrire des scènes visuelles en langage naturel. L'application du RL à ces modèles, popularisée par les travaux sur le RLHF dans les LLM textuels, est devenue une piste prometteuse mais difficile à maîtriser. BalCapRL s'inscrit dans cette dynamique en cherchant à corriger les biais induits par des objectifs d'optimisation trop réducteurs, un enjeu central pour l'alignement des modèles multimodaux à mesure qu'ils s'imposent dans les usages professionnels.

RecherchePaper

1 source

2arXiv cs.RO

Apprentissage par renforcement visuel centré sur l'agent face aux perturbations dynamiques

Des chercheurs ont présenté dans un article arXiv (référence 2504.24661) un nouveau cadre d'apprentissage par renforcement visuel, baptisé ACO-MoE (Agent-Centric Observations with Mixture-of-Experts), conçu pour rendre les agents d'IA robustes face à des perturbations visuelles dynamiques et imprévisibles. Pour évaluer ce problème de manière rigoureuse, l'équipe a d'abord introduit le Visual Degraded Control Suite (VDCS), un benchmark qui étend la suite de référence DeepMind Control Suite en y intégrant des dégradations à commutation markovienne, simulant ainsi les perturbations non-stationnaires du monde réel, comme des corruptions qui changent de nature de façon imprévisible au fil du temps. Les expériences menées sur ce nouveau benchmark ont révélé des effondrements sévères des performances des méthodes existantes dans ces conditions. L'enjeu est considérable pour tous les systèmes d'IA qui apprennent à agir à partir d'images, notamment en robotique, en conduite autonome ou dans les environnements simulés utilisés pour l'entraînement. Les auteurs démontrent théoriquement, via une analyse en théorie de l'information, que cet échec provient d'un défaut fondamental des approches classiques : les objectifs basés sur la reconstruction mêlent inévitablement les artefacts de corruption aux représentations latentes de l'agent, l'empêchant de séparer ce qui est pertinent pour la tâche du bruit visuel. ACO-MoE résout ce problème en déployant des experts de restauration centrés sur l'agent, qui isolent d'abord le premier plan utile et éliminent les corruptions avant que l'agent ne traite l'observation. Résultat : sur VDCS, le système récupère 95,3 % des performances obtenues en conditions visuelles propres, même face aux corruptions à commutation markovienne les plus difficiles. Ce travail s'inscrit dans une préoccupation croissante de la communauté de l'apprentissage par renforcement visuel : les agents entraînés en simulation ou en laboratoire échouent fréquemment en conditions réelles à cause de variations visuelles non anticipées. Les benchmarks existants, dont DMControl, testaient essentiellement des perturbations statiques et prévisibles ; VDCS comble ce manque en modélisant des changements de régime dynamiques. ACO-MoE établit également de nouveaux résultats état de l'art sur DMControl Generalization avec des perturbations de couleur aléatoire et de fond vidéo, deux scénarios classiques du domaine, ce qui suggère que l'approche pourrait s'imposer comme référence pour la robustesse des agents visuels dans des environnements ouverts.

RecherchePaper

1 source

3MarkTechPost

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto

1 source

4Amazon Science

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement

Anthropic a présenté Turnstile, un petit proxy écrit en langage Rust destiné à résoudre un problème technique précis dans l'entraînement des modèles de langage par apprentissage par renforcement (RL). Pour progresser sur des tâches complexes et prolongées, comme écrire du code, naviguer sur un site web ou mener une recherche en plusieurs étapes, un modèle est encadré par un harnais logiciel qui lui permet d'appeler des outils, d'observer les résultats et de décider de l'étape suivante. L'entraînement RL consiste à faire tenter de nombreuses tâches au modèle, à noter chaque tentative, puis à ajuster ses paramètres vers les choix qui ont fonctionné. Le problème vient du fait que les modèles ne traitent pas le texte tel quel, mais sous forme de tokens, des unités numérotées par un tokenizer propre à chaque modèle. Un simple changement de mise en forme, un espace en trop ou une manière différente d'écrire un appel d'outil en JSON peut modifier les identifiants de tokens sans changer le texte apparent, un phénomène qu'Anthropic appelle la dérive de retokenisation ou la dérive du template de conversation. Turnstile s'installe entre le harnais de l'agent et le système qui fait tourner le modèle, et enregistre l'historique exact, token par token, de chaque requête au moment précis de sa génération, le seul instant où cette information est garantie exacte. Cette précision compte parce que les mathématiques du RL par gradient de politique ne fonctionnent correctement que si l'entraînement optimise le comportement du modèle par rapport au contexte réellement vu par la version du modèle qui a produit la tentative, appelée la politique comportementale. Si le contexte est légèrement redessiné lors de la relecture, le modèle est entraîné sur un contexte qu'il n'a jamais réellement rencontré, ce qui dégrade le signal d'apprentissage de façon souvent invisible, le modèle semblant continuer à progresser normalement. Le problème s'aggrave avec des harnais complexes, qui peuvent compacter d'anciens messages pour économiser du contexte, relancer un appel d'outil mal formé, créer des sous-agents puis fusionner leurs résultats, ou résumer l'historique en cours de route, autant d'opérations qui peuvent introduire un décalage entre ce que le modèle a vu et ce que l'entraîneur croit qu'il a vu. Turnstile exporte ces trajectoires token par token dans un format générique, indépendant de tout framework, compatible avec n'importe quelle pile d'entraînement RL existante. Anthropic affirme avoir utilisé cet outil pour de véritables campagnes d'entraînement, avec deux agents différents, un agent de codage purement textuel et un agent multimodal capable d'utiliser un ordinateur, qui ont tous deux progressé de façon régulière au fil de leurs sessions de RL, sans qu'aucune modification du harnais d'origine ne soit nécessaire. Cette publication s'inscrit dans un effort plus large de l'industrie pour fiabiliser l'entraînement des agents IA, à mesure que les tâches confiées aux modèles deviennent plus longues et plus complexes, et que la moindre incohérence dans les données d'entraînement peut se traduire par des gains de performance illusoires ou instables.

💬 Turnstile, c'est le genre d'outil qui ne fera jamais la une, mais qui règle un vrai bug de fond : quand ton harnais d'agent reformate un appel d'outil ou compacte l'historique, le modèle s'entraîne sur un contexte qu'il n'a jamais vu, et ça pourrit le RL sans que personne s'en aperçoive. Le fait qu'Anthropic sorte un proxy Rust juste pour ça montre à quel point l'entraînement des agents devient une affaire de plomberie fine, pas de nouvelles architectures. Ce genre de correction invisible en dit plus sur la maturité d'un labo que ses derniers benchmarks.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic