Aller au contenu principal
Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI
LLMsAWS ML Blog6sem· 2 min de lecture

Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI

Source originale ↗·

Amazon Web Services publie une approche technique pour améliorer l'entraînement des grands modèles de langage via le renforcement à récompenses vérifiables, connue sous l'acronyme RLVR (Reinforcement Learning with Verifiable Rewards), déployée sur sa plateforme SageMaker AI. La méthode combine RLVR avec un algorithme d'optimisation appelé GRPO (Group Relative Policy Optimization) et des exemples dits "few-shot" pour affiner la précision des modèles sur des tâches où la réponse correcte est objectivement mesurable. Pour illustrer l'approche, AWS s'appuie sur le jeu de données GSM8K (Grade School Math 8K), une collection de problèmes mathématiques de niveau primaire, qui sert de terrain d'entraînement et d'évaluation. L'ensemble du pipeline est implémenté et documenté pour fonctionner directement sur SageMaker AI, l'infrastructure cloud d'entraînement de modèles d'Amazon.

L'enjeu central est celui du "reward hacking", un phénomène bien connu dans l'entraînement par renforcement traditionnel : les modèles apprennent à maximiser leur score sans réellement accomplir la tâche souhaitée, en exploitant des failles dans la définition de la récompense. RLVR contourne ce problème en remplaçant les évaluations humaines, coûteuses et subjectives, par des fonctions de récompense programmatiques et reproductibles, le modèle est noté automatiquement selon des règles précises, sans ambiguïté. GRPO complète ce dispositif en organisant les données d'entraînement en groupes et en optimisant les performances de chaque groupe indépendamment, ce qui réduit la variance d'entraînement, accélère la convergence et produit des modèles plus homogènes sur des catégories variées. Ajoutés à cela, les exemples few-shot servent de modèles de référence qui réduisent l'espace de recherche pendant l'exploration du modèle, lui montrant concrètement à quoi ressemble une bonne réponse.

L'approche s'inscrit dans une tendance de fond qui voit l'industrie chercher à réduire la dépendance au feedback humain dans l'entraînement des LLM, un processus long, coûteux et difficile à scaler. Des travaux récents comme DeepSeek-R1 ou les modèles de raisonnement d'OpenAI ont popularisé l'idée que des récompenses vérifiables permettent d'atteindre des niveaux de performance élevés sur des tâches structurées, notamment en mathématiques et en génération de code. AWS positionne SageMaker AI comme une plateforme clé pour que les équipes d'ingénierie puissent reproduire et adapter ces techniques sans repartir de zéro. L'approche est présentée comme généraliste : si le cas d'usage retenu est le calcul mathématique, la combinaison RLVR-GRPO peut s'appliquer à toute tâche disposant de critères de succès objectifs et mesurables, ouvrant la voie à des applications en vérification de code, en manipulation symbolique ou dans tout domaine où la vérité terrain est déterministe.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Affinage par renforcement avec un LLM comme évaluateur
1AWS ML Blog 

Affinage par renforcement avec un LLM comme évaluateur

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM. Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides. L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

LLMsPaper
1 source
Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement
2MarkTechPost 

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Liquid AI a publié LFM2.5-350M, un modèle de langage de 350 millions de paramètres entraîné sur 28 000 milliards de tokens — soit un ratio tokens/paramètres de 80 000 pour 1, un record dans cette catégorie de taille. Contrairement aux architectures Transformer classiques, ce modèle repose sur une structure hybride appelée LIV (Linear Input-Varying Systems) : 10 blocs de convolution LIV à double gating et 6 blocs d'attention GQA (Grouped Query Attention). Cette combinaison permet de gérer une fenêtre de contexte de 32 768 tokens tout en maintenant une empreinte mémoire extrêmement réduite — 169 Mo sur un Snapdragon 8 Elite, 81 Mo sur GPU Snapdragon, et 300 Mo sur Raspberry Pi 5. Sur GPU NVIDIA H100, le modèle atteint 40 400 tokens générés par seconde en forte concurrence. Aux benchmarks, il affiche 76,96 sur IFEval (suivi d'instructions), 30,64 sur GPQA Diamond et 20,01 sur MMLU-Pro. Ce modèle s'adresse directement au marché de l'IA embarquée : appareils mobiles, systèmes edge, IoT, environnements à ressources contraintes. Sa capacité à tourner en moins de 300 Mo de RAM le rend déployable sans cloud, sans GPU serveur, directement sur l'appareil de l'utilisateur final. Pour les développeurs qui construisent des agents autonomes, des pipelines d'extraction de données structurées (JSON, appels de fonctions) ou des systèmes de traitement d'instructions complexes, le LFM2.5-350M offre une vitesse d'inférence difficile à atteindre avec des modèles deux fois plus grands. En revanche, Liquid AI est explicite : ce modèle n'est pas recommandé pour les mathématiques avancées, le code complexe ou l'écriture créative — domaines où la densité de paramètres reste déterminante. Liquid AI, startup fondée par des chercheurs du MIT spécialisés dans les réseaux neuronaux liquides, s'inscrit dans un courant croissant qui remet en question le dogme du « toujours plus grand ». Alors que les grands acteurs — OpenAI, Google, Anthropic — continuent de pousser des modèles frontier aux milliards de paramètres, une contre-tendance émerge autour de la densité d'intelligence : faire mieux avec moins, en optimisant radicalement le ratio données/paramètres et l'architecture elle-même. L'abandon partiel du mécanisme d'attention au profit de systèmes LIV réduit le problème du cache KV qui pénalise les Transformers sur les longues séquences. Cette approche ouvre la voie à une IA véritablement locale, souveraine et déployable sans dépendance à l'infrastructure cloud — un enjeu stratégique croissant dans un contexte de régulation des données et de souveraineté numérique.

UELa capacité du modèle à fonctionner sans infrastructure cloud s'aligne avec les enjeux de souveraineté numérique et de conformité RGPD en Europe, où le traitement local des données réduit la dépendance aux serveurs américains.

LLMsOpinion
1 source
Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI
3AWS ML Blog 

Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI

Amazon Web Services publie un guide technique détaillant comment améliorer la précision des appels d'outils dans les agents IA, en combinant deux techniques d'entraînement, le Supervised Fine-Tuning (SFT) et le Direct Preference Optimization (DPO), sur sa plateforme Amazon SageMaker AI. L'exemple concret porte sur Qwen3 1.7B, un petit modèle de langage, entraîné via des jobs SageMaker AI, un service entièrement géré prenant en charge les configurations multi-GPU et multi-nœuds à la demande. L'objectif est d'apprendre à un modèle à sélectionner le bon outil, dans le bon format, sans briser la chaîne d'actions d'un workflow automatisé. Quand un agent IA appelle le mauvais outil ou formate incorrectement ses paramètres, les conséquences sont directes : délais de traitement allongés, taux d'erreurs en hausse, coûts de support accrus et expérience utilisateur dégradée. Pour les organisations qui font passer leurs applications agentiques du pilote à la production, fiabiliser cette couche d'interaction avec les outils externes est devenu un prérequis non négociable. Le SFT permet d'enseigner au modèle le vocabulaire et les contraintes propres à chaque outil via des exemples explicites. Le DPO, lui, raffine ce comportement en intégrant des préférences directement dans la boucle d'entraînement, sous la forme de paires "réponse préférée / réponse rejetée", sans avoir besoin de fonctions de récompense ni de modèles de récompense distincts, ce qui réduit significativement les ressources et le temps d'entraînement par rapport au reinforcement learning classique. Le DPO s'appuie sur des travaux publiés en 2023 (arXiv:2305.18290) et s'intègre notamment via la bibliothèque HuggingFace TRL, qui prend en entrée des triplets prompt / réponse choisie / réponse rejetée. SageMaker AI ajoute une couche d'infrastructure managée : les clusters haute performance se lancent à la demande, s'arrêtent automatiquement en fin de job, et les métriques d'entraînement remontent vers MLflow intégré à SageMaker pour analyse ultérieure. Cette approche en deux temps, SFT pour la connaissance des outils, DPO pour l'alignement fin sur les comportements souhaités, trace une voie praticable pour les équipes qui veulent construire des agents robustes sans gérer elles-mêmes l'infrastructure d'entraînement. À mesure que les modèles plus petits gagnent en précision grâce à ces techniques, la frontière entre un LLM généraliste et un agent spécialisé fiable en production continue de se réduire.

LLMsTuto
1 source
Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI
4AWS ML Blog 

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et Amazon Web Services ont publié un guide technique détaillant comment entraîner des politiques de comportement pour le robot humanoïde Unitree H1 en utilisant NVIDIA Isaac Lab sur Amazon SageMaker AI. La solution s'appuie sur deux options de calcul complémentaires : SageMaker HyperPod, une infrastructure distribuée managée pour des clusters persistants, et SageMaker Training Jobs, une approche entièrement à la demande où les instances GPU sont provisionnées à la volée puis supprimées à la fin du job. Le code complet est disponible publiquement sur GitHub. L'objectif est de permettre aux équipes robotique de lancer des entraînements par renforcement (RL) à grande échelle, aussi bien en phase d'expérimentation rapide qu'en production sur de longues durées, sans gérer eux-mêmes l'infrastructure de calcul. Cette publication répond à un défi concret : l'entraînement par renforcement pour des comportements complexes, comme la locomotion humanoïde sur terrain accidenté, est extrêmement gourmand en GPU. Un seul run d'entraînement peut durer de quelques heures à plusieurs jours. SageMaker HyperPod intègre un agent de surveillance de santé sur chaque nœud, capable de détecter automatiquement les pannes matérielles, de remplacer les instances défaillantes et de reprendre l'entraînement depuis le dernier checkpoint, sans intervention humaine. Le système publie en parallèle des centaines de métriques de cluster vers Amazon Managed Service for Prometheus, visualisables dans des dashboards Grafana préconfigurés, couvrant l'utilisation GPU, la mémoire, le débit réseau et les performances par tâche. Pour les expériences courtes, SageMaker Training Jobs élimine tout coût de calcul inactif entre les runs, chaque job ne consommant de ressources que le temps de son exécution. L'IA physique bascule progressivement de la recherche vers la production industrielle. Les robots sont désormais formés dans des simulations haute-fidélité accélérées par GPU avant leur déploiement en usine, en entrepôt ou dans des centres logistiques, parce que l'entraînement en conditions réelles reste lent, coûteux et risqué. Cette simulation compresse des mois d'apprentissage en quelques heures, mais déplace le problème vers la gestion du calcul distribué. C'est précisément le créneau que cherchent à occuper AWS et NVIDIA avec cette intégration : en abstraisant la couche infrastructure, ils permettent aux ingénieurs de se concentrer sur la conception des politiques de comportement robotique plutôt que sur la configuration des clusters. SageMaker HyperPod supporte l'orchestration via Amazon EKS ou Slurm, avec un système de quotas fins par instance, GPU entier ou partition MIG (NVIDIA Multi-Instance GPU), couvrant les accélérateurs, les vCPU et la mémoire. La prochaine étape logique sera l'extension de ces pipelines aux modèles de fondation robotique, qui nécessitent des infrastructures similaires mais à une échelle encore supérieure.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic