
Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs
Une équipe de chercheurs a publié une nouvelle méthode d'apprentissage par renforcement baptisée Occupancy Reward Shaping (ORS), conçue pour résoudre l'un des problèmes les plus tenaces du domaine : l'attribution du crédit. Dans les environnements à récompenses rares, un agent autonome peut enchaîner des dizaines d'actions avant d'obtenir un signal de succès ou d'échec, ce qui rend extrêmement difficile l'identification des décisions qui ont réellement conduit au résultat. L'article, publié sur arXiv sous la référence 2604.20627, propose d'extraire la géométrie temporelle du monde à partir de modèles génératifs, puis de la convertir en une fonction de récompense auxiliaire via le transport optimal. Appliquée à 13 tâches de locomotion et de manipulation à long horizon, ORS améliore les performances de 2,2 fois en moyenne par rapport aux approches existantes. La méthode a également été testée sur un problème réel et exigeant : le contrôle du plasma dans trois configurations de réacteur à fusion nucléaire de type Tokamak.
L'impact potentiel de cette avancée est significatif pour tous les systèmes autonomes qui doivent apprendre à partir de données collectées offline, c'est-à-dire sans interaction en temps réel avec l'environnement. Les robots industriels, les systèmes de planification médicale ou les agents de contrôle de processus physiques complexes sont directement concernés. La garantie théorique centrale d'ORS, que le remodelage de la récompense ne modifie pas la politique optimale, est cruciale : elle signifie que la méthode accélère l'apprentissage sans introduire de biais ou de comportements indésirables, ce qui est un prérequis pour toute application dans des contextes à risque élevé comme la fusion nucléaire.
L'attribution du crédit temporel est un problème fondamental de l'apprentissage par renforcement depuis ses origines, et de nombreuses approches ont tenté de le contourner via des récompenses intermédiaires conçues à la main ou des architectures récurrentes. ORS se distingue en exploitant les modèles de monde génératifs, qui connaissent un regain d'intérêt depuis les travaux de DeepMind et d'autres laboratoires sur la planification basée sur des modèles. En combinant ces modèles avec le transport optimal, un outil mathématique issu de la théorie de la mesure, les auteurs ouvrent une voie systématique pour encoder la structure géométrique de n'importe quel environnement. Le code source est disponible publiquement sur GitHub, ce qui facilitera l'adoption et les travaux de réplication dans la communauté.
La méthode ORS, validée sur des réacteurs Tokamak, pourrait intéresser le projet ITER hébergé à Cadarache (France), principal programme mondial de fusion nucléaire financé par l'UE.




