
NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code
NVIDIA a publié Polar, un framework de déploiement conçu pour entraîner des agents de langage par apprentissage par renforcement (RL) sans modifier les outils existants. Présenté dans un article de recherche disponible sur arXiv (2605.24220), Polar permet d'appliquer des algorithmes comme GRPO à des agents comme Codex CLI, Claude Code, Qwen Code ou Pi, en s'intercalant entre l'agent et le modèle de langage via un proxy réseau. Concrètement, un proxy intercepte chaque appel API entrant, détecte le format utilisé (Anthropic Messages, OpenAI Chat Completions, Google generateContent), normalise la requête, capture les tokens générés avec leurs probabilités logarithmiques, puis retourne la réponse dans le format attendu par l'agent. L'unique modification requise côté harness est de rediriger l'URL de base du modèle vers ce gateway.
L'intérêt majeur de Polar est de préserver intégralement le comportement des outils d'agents en production lors de l'entraînement. Jusqu'ici, les infrastructures RL standard exigeaient de réécrire la logique interne de chaque harness derrière une API propriétaire (env.init(), env.step(), env.reset() à la manière d'OpenAI Gym), ce qui entraînait une perte de fidélité et un coût d'intégration élevé pour chaque nouvel outil. Avec Polar, les chercheurs peuvent entraîner un modèle sur les mêmes chemins d'exécution exacts que ceux utilisés en évaluation, ce qui réduit l'écart entre les performances mesurées et les performances réelles. Les évaluateurs intégrés couvrent des benchmarks comme SWE-Bench et SWE-Gym, et le système permet de récupérer des traces partielles même lorsqu'un agent dépasse son budget de temps après avoir effectué des appels modèles.
L'architecture repose sur deux composants principaux : un serveur de rollout qui distribue des sessions parallèles à des noeuds gateway, et ces mêmes gateways qui gèrent l'intégralité du cycle de vie d'une session, du démarrage du runtime à l'évaluation de la sortie. Des pools de workers isolés gèrent les phases INIT, RUNNING et POSTRUN, tandis qu'un buffer READY maintient des runtimes préchauffés pour éviter de bloquer l'exécution GPU. Polar supporte Docker et Apptainer sans droits root, et propose des raccourcis natifs pour les principaux harnesses du marché. Cette approche s'inscrit dans une tendance plus large : les laboratoires et équipes de recherche cherchent à industrialiser l'entraînement RL sur des agents de codage complexes, capables de gérer des contextes longs et des orchestrations multi-agents. NVIDIA se positionne ainsi comme fournisseur d'infrastructure pour cette nouvelle génération de pipelines d'entraînement, à mesure que la frontière entre inférence et apprentissage continu s'estompe.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



