Aller au contenu principal
Optimisation de politique relative de groupe personnalisée pour l'alignement aux préférences hétérogènes
RechercheApple Machine Learning13sem· 1 min de lecture

Optimisation de politique relative de groupe personnalisée pour l'alignement aux préférences hétérogènes

Source originale ↗·

Des chercheurs ont proposé une nouvelle méthode d'alignement des grands modèles de langage (LLM) baptisée Personalized Group Relative Policy Optimization (P-GRPO), conçue pour adapter le comportement des modèles aux préférences individuelles plutôt qu'à un objectif global unique. Le travail s'attaque directement aux limites du GRPO standard, l'un des cadres d'apprentissage par renforcement les plus utilisés aujourd'hui, dont la normalisation par groupe suppose implicitement que tous les exemples d'entraînement sont interchangeables.

Ce postulat pose un problème fondamental : en pratique, des utilisateurs différents ont des attentes radicalement différentes, et les méthodes actuelles comme le RLHF (Reinforcement Learning from Human Feedback) lissent ces divergences au profit d'une réponse moyenne. Le résultat est un modèle techniquement performant mais incapable de s'adapter à un médecin, un étudiant ou un développeur qui n'attendent pas du tout la même chose d'un assistant IA. P-GRPO cherche à corriger cela en traitant séparément les distributions de récompenses propres à chaque profil utilisateur.

L'enjeu dépasse la simple personnalisation de surface. Alors que l'industrie s'oriente vers des assistants IA déployés dans des contextes très variés — santé, éducation, entreprise — la capacité à aligner finement un modèle sur des groupes hétérogènes devient un avantage compétitif majeur. Ce travail s'inscrit dans une tendance de fond : après avoir maximisé les capacités générales des LLM, les laboratoires de recherche cherchent maintenant à affiner leur adéquation aux besoins réels des utilisateurs finaux.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils
1Apple Machine Learning 

PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils

Des chercheurs ont publié PORTool, un algorithme d'optimisation de politique dit "importance-aware" conçu pour améliorer l'entraînement des agents LLM capables d'utiliser plusieurs outils simultanément. Le système introduit un arbre de récompenses (rewarded tree) qui attribue des crédits à chaque étape intermédiaire d'un raisonnement, plutôt qu'uniquement à l'issue finale d'une tâche. Concrètement, lorsqu'un agent enchaîne des appels à des outils externes avant de produire une réponse, PORTool est capable de noter individuellement chaque décision prise en cours de route. Le problème central que PORTool cherche à résoudre est l'ambiguïté d'attribution de crédit, un obstacle persistant dans l'entraînement des agents multi-outils. Avec les méthodes classiques basées uniquement sur le résultat final, il est impossible de savoir quelles décisions intermédiaires ont contribué au succès ou à l'échec d'une séquence. Ce manque de granularité dégrade la qualité de l'apprentissage et rend les agents peu fiables en conditions réelles. PORTool offre un signal d'entraînement plus précis, ce qui devrait se traduire par des agents mieux capables de mobiliser les bons outils au bon moment. Le raisonnement multi-outils est devenu un enjeu central depuis l'essor des agents autonomes comme GPT-4 avec plugins, ou les architectures ReAct et ToolLLM. Ces systèmes montrent un potentiel considérable pour automatiser des tâches complexes en milieu professionnel, mais leur fiabilité dépend directement de la qualité de leur entraînement. PORTool s'inscrit dans une vague de travaux sur l'apprentissage par renforcement appliqué aux LLM, un domaine en pleine effervescence depuis les succès de DeepSeek-R1 et d'autres modèles à raisonnement renforcé.

RecherchePaper
1 source
RVPO : un alignement sensible au risque par régularisation de la variance
2Apple Machine Learning 

RVPO : un alignement sensible au risque par régularisation de la variance

Les méthodes actuelles d'alignement des grands modèles de langage par renforcement humain (RLHF), comme celles sans critique explicite, agrègent plusieurs objectifs de récompense via une simple moyenne arithmétique. Une équipe de chercheurs propose RVPO (Reward-Variance Policy Optimization), un cadre d'optimisation sensible au risque qui corrige une faille structurelle de ces approches : la "négligence des contraintes". Concrètement, un modèle peut obtenir un score global élevé en excellant sur un objectif, tout en échouant silencieusement sur un autre, comme la sécurité ou le respect du format. Ce problème n'est pas anodin : dans des déploiements réels, un modèle qui ignore systématiquement une contrainte de sécurité tout en produisant des réponses très fluentes reste dangereux, même si sa récompense moyenne paraît satisfaisante. RVPO répond à cela en pénalisant la variance entre les différentes récompenses lors de l'agrégation des avantages, déplaçant l'objectif d'un "maximiser la somme" vers un "maximiser la cohérence". Le modèle est ainsi incité à progresser de manière équilibrée sur tous les axes plutôt qu'à suroptimiser l'un d'eux. L'alignement multi-objectif est l'un des défis centraux du développement des LLM fiables, à mesure que ces systèmes doivent simultanément respecter la sécurité, la précision factuelle, les instructions de format et les préférences utilisateurs. Les approches sans modèle critique, popularisées notamment par DPO et ses dérivés, ont l'avantage d'être moins coûteuses à entraîner, mais leur agrégation naïve des signaux reste un point faible. RVPO, justifié mathématiquement via un développement de Taylor, ouvre une piste concrète pour rendre ces méthodes plus robustes face aux compromis critiques.

RechercheOpinion
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
3VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques
4arXiv cs.RO 

SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques

Des chercheurs ont publié sur arXiv une méthode appelée SMP (Score-Matching Motion Priors), conçue pour rendre les personnages virtuels animés par simulation physique capables de mouvements naturels, sans avoir à tout réentraîner à chaque nouveau projet. La technique repose sur des modèles de diffusion de mouvement pré-entraînés combinés à une technique baptisée score distillation sampling (SDS), empruntée au domaine de la génération 3D à partir de texte. Le principe : entraîner une fois un prior de mouvement sur un grand corpus de données de capture de mouvement, puis le geler et le réutiliser comme fonction de récompense universelle pour entraîner n'importe quelle nouvelle politique de contrôle sur des tâches variées. L'enjeu est considérable pour les studios de jeux vidéo, les équipes de simulation robotique et les développeurs d'avatars en réalité virtuelle. Jusqu'ici, la méthode dominante reposait sur l'apprentissage par imitation adversariale, efficace mais contraignante : chaque nouveau contrôleur nécessitait un réentraînement complet du prior, et les données de référence devaient être conservées à chaque étape. SMP rompt avec cette logique en proposant un prior généraliste, modulable et composable. Les auteurs montrent qu'un seul modèle entraîné sur de larges datasets peut être redirigé vers des styles de mouvement spécifiques, et que plusieurs styles peuvent être composés pour en synthétiser de nouveaux, absents du dataset original. Cette avancée s'inscrit dans une tendance plus large d'adaptation des modèles de diffusion, popularisés en génération d'images, à d'autres modalités comme le mouvement corporel. Les méthodes adversariales, issues des GANs, ont longtemps dominé la synthèse de mouvements réalistes pour personnages humanoïdes simulés physiquement, mais leur manque de réutilisabilité freinait leur déploiement à grande échelle dans des pipelines de production. SMP propose une alternative modulaire qui pourrait simplifier le développement de personnages animés dans les moteurs physiques, sans sacrifier la qualité visuelle. Les résultats présentés sur une suite diversifiée de tâches de contrôle montrent des performances comparables aux meilleures méthodes adversariales actuelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic