Aller au contenu principal
RechercheMarkTechPost2h

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation

1 source couvre ce sujet·Source originale ↗·
Résumé IA

NVIDIA a présenté PivotRL, un nouveau cadre d'entraînement pour les grands modèles de langage (LLM) conçu pour les tâches agentiques complexes comme l'ingénierie logicielle, la navigation web ou l'utilisation d'outils. Développé par des chercheurs de NVIDIA, PivotRL réduit le nombre de tours de simulation nécessaires d'un facteur 4 tout en maintenant une précision élevée. Le système repose sur deux mécanismes clés : le « Pivot Filtering », qui identifie les étapes d'entraînement les plus instructives, et les « Functional Rewards », qui évaluent les actions par équivalence fonctionnelle plutôt que par correspondance exacte de texte. Ce framework s'attaque à un problème central dans le domaine : les méthodes de fine-tuning supervisé (SFT) sont peu coûteuses mais généralisent mal hors de leur domaine d'entraînement, tandis que l'apprentissage par renforcement de bout en bout (E2E RL) offre une meilleure généralisation mais exige des ressources de calcul considérables. PivotRL cherche à combiner le meilleur des deux approches en opérant sur des trajectoires SFT existantes, concentrant le calcul uniquement sur les états d'entraînement qui fournissent le signal d'apprentissage le plus fort. L'entraînement post-déploiement des LLM pour des agents autonomes est devenu l'un des défis majeurs de l'IA en 2025-2026, à mesure que l'industrie cherche à déployer des systèmes capables d'exécuter des tâches longues et complexes de manière fiable et économique.

Post-training Large Language Models (LLMs) for long-horizon agentic tasks—such as software engineering, web browsing, and complex tool use—presents a persistent trade-off between computational efficiency and model generalization . While Supervised Fine-Tuning (SFT) is computationally inexpensive, it frequently suffers from out-of-domain (OOD) performance degradation and struggles to generalize beyond its training distribution . Conversely, end-to-end reinforcement learning (E2E RL) typically preserves OOD capabilities and achieves high in-domain accuracy, but it incurs massive compute costs due to the necessity of repeated, many-turn on-policy rollouts for every parameter update . NVIDIA researchers have introduced PivotRL , a framework designed to bridge this gap . By operating on existing SFT trajectories, PivotRL aims to deliver the generalization benefits of E2E RL while maintaining the data efficiency associated with SFT . The Architecture of a Pivot The core of PivotRL is the transition from full-trajectory rollouts to targeted, turn-level updates . The framework identifies and utilizes two primary mechanisms: Pivot Filtering and Functional Rewards . 1. Pivot Filtering In turn-level agentic training, every assistant completion at a model-call boundary is considered an action. PivotRL begins by extracting all assistant turns from an SFT dataset into a ‘pivot candidate’ pool. The system then profiles these candidates offline using a frozen reference policy, π 0 . To optimize the training budget, PivotRL filters for pivots : specific states where local, on-policy rollouts exhibit high variance in outcomes. The filtering criteria are defined by two conditions: Nonzero empirical reward variance : σ ^ 2 ( s ) > 0 \hat{\sigma}^2(s) > 0 . Low reward mean : μ ^ ( s ) < λ d i f f \hat{\mu}(s) < \lambda_{diff} This approach addresses the uninformative-turn bottleneck. In group-normalized RL—specifically Group Relative Policy Optimization (GRPO)—turns where actions either uniformly succeed or uniformly fail result in a normalized advantage of zero, providing no meaningful gradient update. By focusing on mixed-outcome turns that remain difficult for the reference policy, PivotRL concentrates compute on states that provide the strongest learning signal. 2. Implementing Functional Rewards Standard SFT-to-RL adaptations often rely on exact string matching with the demonstration data to assign rewards . However, in generative action spaces (e.g., shell commands or search queries), multiple functionally equivalent actions may diverge from the specific string in the training data . PivotRL replaces strict matching with functional rewards , r f u n c ( s , a ) = 1 [ a ∈ ℳ ( s ) ] r_{func}(s, a) = 1[a \in \mathcal{M}(s)] , where ℳ ( s ) \mathcal{M}(s) is the set of locally acceptable actions determined by a domain-specific verifier. These verifiers can range from normalized schema checks and string similarity to lightweight LLM-as-a-judge scoring. Theoretical Foundations: Gradient Signal and OOD Retention The effectiveness of these design choices is supported by two primary theoretical results: Theorem 3.2 (Reward Variance and GRPO Signal): The research team proved that the Fisher norm of the natural gradient of the statewise reward objective scales with the reward standard deviation. Specifically, the population GRPO score, γ s , β , e q u a l s σ β 2 \gamma_{s, \beta}, equals \frac{\sigma}{\beta^2} . This validates the strategy of filtering for mixed-outcome pivots to maximize the local in-domain learning signal. Theorem 3.3 (Minimal KL Change): This theorem demonstrates that functional reward-based RL shifts probability mass toward acceptable actions while preserving the reference policy’s relative probability ordering for actions unrelated to the training task. Because the relative ranking of task-unrelated actions remains unchanged, PivotRL significantly mitigates the catastrophic forgetting and OOD degradation common in SFT. Performance and Efficiency The research team evaluated PivotRL using Qwen3-30B-A3B-Thinking-2507 as the base model across four agentic domains : conversational tool use ( τ 2 − B e n c h ) (\tau^2-Bench) , software engineering (SWE-Bench Verified), terminal control (Terminal-Bench), and web browsing (BrowseComp). In-Domain Accuracy Gains Compared to SFT on identical data, PivotRL achieved superior in-domain results: Average Gain: +14.11 points over the base model, compared to +9.94 points for SFT. Domain Specifics: PivotRL outperformed SFT on τ 2 − B e n c h \tau^2-Bench (+5.37), Terminal-Bench (+6.25), and BrowseComp (+9.80). Out-of-Domain Retention The most significant advantage was observed in OOD stability . While SFT caused an average regression of -9.83 across eight OOD benchmarks (including math and science QA), PivotRL maintained a near-zero average change of +0.21 . Notably, PivotRL achieved +10.04% higher OOD accuracy in non-agentic tasks compared to SFT . Compute Efficiency on

Articles similaires

1Les Numériques IA5h

Actualité : OpenAI ferme brutalement Sora, l'usine à slop la plus chère de l'histoire de l'IA

OpenAI a annoncé le 24 mars 2026 la fermeture brutale de Sora, son outil d'IA pour créer des vidéos, décrite comme l'usine à slop la plus coûteuse de l'histoire de l'IA. Aucune justification n'est donnée officiellement ; une communication ultérieure devrait préciser le calendrier et les mesures pour sauvegarder les contenus utilisateur.

UELa fermeture soudaine de Sora par OpenAI affecte potentiellement les utilisateurs et développeurs européens qui ont investi dans cet outil d'IA pour la création de vidéos.

RechercheActu
1 source
2MarkTechPost13h

L'attention paginée dans les grands modèles de langage

Dans les LLMs à grande échelle, la mémoire GPU est le principal goulot d'étranglement : chaque requête réserve un bloc fixe pour le cache KV basé sur la longueur maximale de séquence (2048 tokens, soit 1024 Mo), alors qu'en moyenne seulement 24,4 % de cet espace est réellement utilisé — représentant 75 Go gaspillés pour 100 utilisateurs simultanés. Le Paged Attention résout ce problème en découpant le cache KV en petits blocs alloués dynamiquement (16 tokens par page, inspiré de la mémoire virtuelle), permettant aussi à plusieurs requêtes partageant le même prompt de partager la mémoire via un mécanisme Copy-on-Write. Cette approche améliore drastiquement l'efficacité mémoire et le débit, mesurée ici sur des batchs de 10 à 200 requêtes simultanées.

RecherchePaper
1 source
3MarkTechPost16h

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Des chercheurs de Meta FAIR, Cornell et Carnegie Mellon ont présenté TinyLoRA, une méthode de fine-tuning extrêmement compacte atteignant 91,8 % sur le benchmark GSM8K avec seulement 13 paramètres (26 octets en bf16) sur un modèle Qwen2.5-7B. La clé est l'utilisation du reinforcement learning (GRPO) plutôt que le fine-tuning supervisé, qui nécessite 100 à 1 000 fois plus de paramètres pour des performances équivalentes. TinyLoRA exploite une décomposition SVD tronquée des poids gelés projetée via un vecteur entraînable de très faible dimension, permettant un partage extrême des paramètres entre toutes les couches.

RecherchePaper
1 source