
Prime Intellect publie prime-rl 0.6.0 pour entraîner des modèles MoE à mille milliards de paramètres sur des tâches RL à base d'agents
Prime Intellect a publié la version 0.6.0 de son framework open source prime-rl, conçu pour entraîner des modèles de langage de très grande taille via du reinforcement learning asynchrone. Cette mise à jour majeure cible spécifiquement les modèles Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, avec un focus sur des tâches dites "agentiques" longues et complexes, comme la résolution autonome de bugs logiciels. Pour illustrer les capacités du framework, l'équipe a entraîné GLM-5, le modèle de l'organisation zai-org, sur des tâches d'ingénierie logicielle (SWE) avec des séquences allant jusqu'à 131 000 tokens. Résultat : des temps d'étape inférieurs à cinq minutes, des batchs de 256 rollouts, le tout sur seulement 28 noeuds H200, une efficacité matérielle remarquable pour cette classe de modèles. Le framework est également compatible avec d'autres modèles MoE massifs comme Kimi-K2.7-Code de Moonshot AI ou le Nemotron-3-Ultra-550B de NVIDIA.
Ce type d'infrastructure répond à un problème concret du reinforcement learning à grande échelle : les tâches agentiques génèrent des "outliers" temporels, certains rollouts de code pouvant s'étirer sur plusieurs heures. Dans un système synchrone classique, les GPU restent à l'arrêt en attendant la fin de ces longues exécutions avant chaque mise à jour de politique. prime-rl résout ce goulot d'étranglement en découplant complètement le moteur d'inférence du moteur d'entraînement : les deux fonctionnent et scalent indépendamment, avec un unique point de synchronisation au moment de la mise à jour des poids. Côté inférence, le système combine calcul en FP8 avec les kernels DeepEP et DeepGEMM, un "Wide Expert Parallelism" répartissant les experts sur 32 GPU ou plus, une séparation des workers de prefill et de decode, et un système de gestion hiérarchique du cache KV avec offloading vers CPU ou disque. Le mécanisme "Router Replay" (R3) est particulièrement notable : il rejoue les décisions de routage de l'inférence directement sur le trainer, réduisant le décalage KL d'un ordre de grandeur.
Cette publication s'inscrit dans une course à la scalabilité du post-training par RL, accélérée par le succès des modèles de raisonnement comme DeepSeek-R1 ou les modèles de la série o1 d'OpenAI. L'approche MoE est devenue centrale pour atteindre des capacités de niveau "trillion de paramètres" sans exploser les coûts de calcul à l'inférence, mais elle impose des contraintes d'orchestration redoutables, notamment la coordination des experts entre des dizaines de GPU. Prime Intellect, qui se positionne sur l'entraînement distribué open source, mise sur prime-rl pour démocratiser l'accès à ces techniques jusqu'ici réservées aux grands laboratoires disposant de clusters propriétaires. La compatibilité avec Slurm et des routeurs comme NVIDIA Dynamo suggère une orientation claire vers des déploiements en production à l'échelle industrielle.
Les laboratoires et startups européens travaillant sur le post-training par RL peuvent bénéficier de cet outil open source pour entraîner des modèles MoE à très grande échelle sans dépendre de clusters propriétaires.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




