Aller au contenu principal
Affinage par renforcement avec un LLM comme évaluateur
LLMsAWS ML Blog6sem· 2 min de lecture

Affinage par renforcement avec un LLM comme évaluateur

Source originale ↗·

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM.

Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides.

L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI
1AWS ML Blog 

Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI

Amazon Web Services publie une approche technique pour améliorer l'entraînement des grands modèles de langage via le renforcement à récompenses vérifiables, connue sous l'acronyme RLVR (Reinforcement Learning with Verifiable Rewards), déployée sur sa plateforme SageMaker AI. La méthode combine RLVR avec un algorithme d'optimisation appelé GRPO (Group Relative Policy Optimization) et des exemples dits "few-shot" pour affiner la précision des modèles sur des tâches où la réponse correcte est objectivement mesurable. Pour illustrer l'approche, AWS s'appuie sur le jeu de données GSM8K (Grade School Math 8K), une collection de problèmes mathématiques de niveau primaire, qui sert de terrain d'entraînement et d'évaluation. L'ensemble du pipeline est implémenté et documenté pour fonctionner directement sur SageMaker AI, l'infrastructure cloud d'entraînement de modèles d'Amazon. L'enjeu central est celui du "reward hacking", un phénomène bien connu dans l'entraînement par renforcement traditionnel : les modèles apprennent à maximiser leur score sans réellement accomplir la tâche souhaitée, en exploitant des failles dans la définition de la récompense. RLVR contourne ce problème en remplaçant les évaluations humaines, coûteuses et subjectives, par des fonctions de récompense programmatiques et reproductibles, le modèle est noté automatiquement selon des règles précises, sans ambiguïté. GRPO complète ce dispositif en organisant les données d'entraînement en groupes et en optimisant les performances de chaque groupe indépendamment, ce qui réduit la variance d'entraînement, accélère la convergence et produit des modèles plus homogènes sur des catégories variées. Ajoutés à cela, les exemples few-shot servent de modèles de référence qui réduisent l'espace de recherche pendant l'exploration du modèle, lui montrant concrètement à quoi ressemble une bonne réponse. L'approche s'inscrit dans une tendance de fond qui voit l'industrie chercher à réduire la dépendance au feedback humain dans l'entraînement des LLM, un processus long, coûteux et difficile à scaler. Des travaux récents comme DeepSeek-R1 ou les modèles de raisonnement d'OpenAI ont popularisé l'idée que des récompenses vérifiables permettent d'atteindre des niveaux de performance élevés sur des tâches structurées, notamment en mathématiques et en génération de code. AWS positionne SageMaker AI comme une plateforme clé pour que les équipes d'ingénierie puissent reproduire et adapter ces techniques sans repartir de zéro. L'approche est présentée comme généraliste : si le cas d'usage retenu est le calcul mathématique, la combinaison RLVR-GRPO peut s'appliquer à toute tâche disposant de critères de succès objectifs et mesurables, ouvrant la voie à des applications en vérification de code, en manipulation symbolique ou dans tout domaine où la vérité terrain est déterministe.

LLMsTuto
1 source
Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor
2MarkTechPost 

Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor

Un tutoriel technique publié récemment propose une implémentation complète pour compresser et évaluer des modèles de langage ajustés par instruction, en comparant trois méthodes de quantification post-entraînement : FP8 dynamique, GPTQ W4A16, et SmoothQuant combiné à GPTQ W8A8. Le point de départ est le modèle Qwen2.5-0.5B-Instruct de l'entreprise chinoise Alibaba, utilisé en baseline FP16. L'ensemble du pipeline repose sur la bibliothèque open source llmcompressor, associée à compressed-tensors et à l'écosystème HuggingFace Transformers. Chaque variante compressée est évaluée selon cinq critères mesurables : taille sur disque, latence de génération, débit en tokens par seconde, perplexité sur WikiText-2, et qualité subjective des réponses générées. La valeur concrète de ce travail réside dans la mise en évidence des compromis réels entre performance et efficacité pour le déploiement en production. La quantification réduit la mémoire GPU nécessaire et accélère l'inférence, deux contraintes centrales pour toute équipe souhaitant servir un LLM à moindre coût. En passant de FP16 à FP8 ou à W4A16, on peut diviser la taille du modèle par deux ou plus, avec un impact variable sur la perplexité selon la méthode choisie. SmoothQuant, qui lisse les distributions d'activation avant de quantifier, permet d'appliquer une quantification 8 bits sur les poids et les activations simultanément, ce qui se traduit par un meilleur rapport qualité-compression que la quantification naïve. Pour les équipes qui doivent faire tourner des modèles sur du matériel contraint, comme un GPU T4 de Google Colab, ces différences ne sont pas théoriques mais directement opérationnelles. La quantification post-entraînement s'est imposée comme l'une des réponses pratiques à l'explosion de la taille des modèles de langage depuis 2022. Là où le fine-tuning quantifié (QAT) nécessite de réentraîner le modèle, le PTQ agit après coup sur les poids déjà entraînés, ce qui le rend bien plus accessible. Des outils comme llmcompressor, développé par la startup Neural Magic (rachetée par Red Hat en 2024), ou AWQ et GGUF popularisés par llama.cpp, ont démocratisé ces techniques. Le choix de Qwen2.5 comme modèle de référence est révélateur : avec 0,5 milliard de paramètres, il reste assez léger pour tourner sur un GPU grand public tout en étant représentatif des architectures modernes. Les prochaines étapes naturelles de ce type de travail incluent l'extension à des modèles plus grands, l'intégration de frameworks de serving comme vLLM ou TGI, et la comparaison avec des approches de pruning structuré ou de distillation.

UELes techniques de quantification présentées permettent aux équipes européennes de servir des LLMs sur du matériel contraint sans dépendre d'infrastructures cloud coûteuses, s'appuyant sur l'écosystème HuggingFace Transformers, dont la startup est à forte présence en France.

LLMsTuto
1 source
Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement
3MarkTechPost 

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Liquid AI a publié LFM2.5-350M, un modèle de langage de 350 millions de paramètres entraîné sur 28 000 milliards de tokens — soit un ratio tokens/paramètres de 80 000 pour 1, un record dans cette catégorie de taille. Contrairement aux architectures Transformer classiques, ce modèle repose sur une structure hybride appelée LIV (Linear Input-Varying Systems) : 10 blocs de convolution LIV à double gating et 6 blocs d'attention GQA (Grouped Query Attention). Cette combinaison permet de gérer une fenêtre de contexte de 32 768 tokens tout en maintenant une empreinte mémoire extrêmement réduite — 169 Mo sur un Snapdragon 8 Elite, 81 Mo sur GPU Snapdragon, et 300 Mo sur Raspberry Pi 5. Sur GPU NVIDIA H100, le modèle atteint 40 400 tokens générés par seconde en forte concurrence. Aux benchmarks, il affiche 76,96 sur IFEval (suivi d'instructions), 30,64 sur GPQA Diamond et 20,01 sur MMLU-Pro. Ce modèle s'adresse directement au marché de l'IA embarquée : appareils mobiles, systèmes edge, IoT, environnements à ressources contraintes. Sa capacité à tourner en moins de 300 Mo de RAM le rend déployable sans cloud, sans GPU serveur, directement sur l'appareil de l'utilisateur final. Pour les développeurs qui construisent des agents autonomes, des pipelines d'extraction de données structurées (JSON, appels de fonctions) ou des systèmes de traitement d'instructions complexes, le LFM2.5-350M offre une vitesse d'inférence difficile à atteindre avec des modèles deux fois plus grands. En revanche, Liquid AI est explicite : ce modèle n'est pas recommandé pour les mathématiques avancées, le code complexe ou l'écriture créative — domaines où la densité de paramètres reste déterminante. Liquid AI, startup fondée par des chercheurs du MIT spécialisés dans les réseaux neuronaux liquides, s'inscrit dans un courant croissant qui remet en question le dogme du « toujours plus grand ». Alors que les grands acteurs — OpenAI, Google, Anthropic — continuent de pousser des modèles frontier aux milliards de paramètres, une contre-tendance émerge autour de la densité d'intelligence : faire mieux avec moins, en optimisant radicalement le ratio données/paramètres et l'architecture elle-même. L'abandon partiel du mécanisme d'attention au profit de systèmes LIV réduit le problème du cache KV qui pénalise les Transformers sur les longues séquences. Cette approche ouvre la voie à une IA véritablement locale, souveraine et déployable sans dépendance à l'infrastructure cloud — un enjeu stratégique croissant dans un contexte de régulation des données et de souveraineté numérique.

UELa capacité du modèle à fonctionner sans infrastructure cloud s'aligne avec les enjeux de souveraineté numérique et de conformité RGPD en Europe, où le traitement local des données réduit la dépendance aux serveurs américains.

LLMsOpinion
1 source
Affiner un LLM avec Databricks Unity Catalog et Amazon SageMaker AI
4AWS ML Blog 

Affiner un LLM avec Databricks Unity Catalog et Amazon SageMaker AI

Amazon Web Services et Databricks ont publié un guide technique détaillant comment affiner des grands modèles de langage (LLM) en combinant Amazon SageMaker AI, Amazon EMR Serverless et Databricks Unity Catalog, le tout en maintenant une gouvernance stricte des données. L'architecture présentée repose sur un flux en quatre étapes : les données d'entraînement sont lues depuis une table gérée par Unity Catalog, prétraitées via un job EMR Serverless utilisant Apache Spark, puis utilisées pour affiner le modèle Ministral-3B-Instruct de Mistral AI via SageMaker AI Training. Les artefacts du modèle entraîné sont enfin réenregistrés dans Unity Catalog, avec traçabilité complète de la lignée des données. Les credentials OAuth sont stockés dans AWS Secrets Manager, et les données transitent exclusivement via Amazon S3 sans jamais contourner les contrôles d'autorisation d'Unity Catalog. Cette intégration répond à un problème concret qui touche les entreprises opérant dans des secteurs régulés : lorsque SageMaker accède directement aux objets S3 sans passer par Unity Catalog, la traçabilité des données disparaît. Impossible alors de savoir quelles données ont servi à entraîner quel modèle, ce qui constitue un risque de conformité majeur dans les environnements de production. En forçant tout accès à transiter par les API REST ouvertes d'Unity Catalog avec authentification OAuth, la solution préserve la visibilité complète sur la lignée des données, de la source brute jusqu'au modèle final enregistré. Cela permet aux équipes data de continuer à utiliser SageMaker AI Studio comme environnement d'orchestration et d'entraînement sans sacrifier les politiques de gouvernance centralisées imposées par les équipes de conformité. Ce guide s'inscrit dans une tendance plus large de l'industrie cloud : les hyperscalers et les éditeurs de plateformes de données cherchent à proposer des intégrations natives pour éviter que la flexibilité des services managés ne crée des angles morts réglementaires. Databricks, valorisé à 62 milliards de dollars lors de sa dernière levée de fonds en 2024, a fait de Unity Catalog le pilier central de sa stratégie de gouvernance des données et de l'IA, et multiplie les partenariats avec AWS pour que ses couches de contrôle s'appliquent même lorsque le calcul est délégué à des services tiers comme SageMaker ou EMR. Pour les entreprises qui ont standardisé sur Databricks pour la gouvernance tout en restant attachées aux services ML d'AWS, cette architecture offre un chemin viable pour affiner des LLM en production sans compromettre leurs obligations d'audit. La prochaine étape logique sera d'étendre ce patron à d'autres modèles et à des workflows d'inférence, pas seulement d'entraînement.

UELes entreprises européennes soumises au RGPD et à l'AI Act peuvent s'appuyer sur cette architecture pour garantir la traçabilité complète des données d'entraînement de leurs LLM, répondant aux exigences d'audit et de conformité imposées par les régulateurs.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic