Aller au contenu principal
RVPO : un alignement sensible au risque par régularisation de la variance
RechercheApple Machine Learning6sem· 1 min de lecture

RVPO : un alignement sensible au risque par régularisation de la variance

Source originale ↗·

Les méthodes actuelles d'alignement des grands modèles de langage par renforcement humain (RLHF), comme celles sans critique explicite, agrègent plusieurs objectifs de récompense via une simple moyenne arithmétique. Une équipe de chercheurs propose RVPO (Reward-Variance Policy Optimization), un cadre d'optimisation sensible au risque qui corrige une faille structurelle de ces approches : la "négligence des contraintes". Concrètement, un modèle peut obtenir un score global élevé en excellant sur un objectif, tout en échouant silencieusement sur un autre, comme la sécurité ou le respect du format.

Ce problème n'est pas anodin : dans des déploiements réels, un modèle qui ignore systématiquement une contrainte de sécurité tout en produisant des réponses très fluentes reste dangereux, même si sa récompense moyenne paraît satisfaisante. RVPO répond à cela en pénalisant la variance entre les différentes récompenses lors de l'agrégation des avantages, déplaçant l'objectif d'un "maximiser la somme" vers un "maximiser la cohérence". Le modèle est ainsi incité à progresser de manière équilibrée sur tous les axes plutôt qu'à suroptimiser l'un d'eux.

L'alignement multi-objectif est l'un des défis centraux du développement des LLM fiables, à mesure que ces systèmes doivent simultanément respecter la sécurité, la précision factuelle, les instructions de format et les préférences utilisateurs. Les approches sans modèle critique, popularisées notamment par DPO et ses dérivés, ont l'avantage d'être moins coûteuses à entraîner, mais leur agrégation naïve des signaux reste un point faible. RVPO, justifié mathématiquement via un développement de Taylor, ouvre une piste concrète pour rendre ces méthodes plus robustes face aux compromis critiques.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Optimisation de politique relative de groupe personnalisée pour l'alignement aux préférences hétérogènes
1Apple Machine Learning 

Optimisation de politique relative de groupe personnalisée pour l'alignement aux préférences hétérogènes

Des chercheurs ont proposé une nouvelle méthode d'alignement des grands modèles de langage (LLM) baptisée Personalized Group Relative Policy Optimization (P-GRPO), conçue pour adapter le comportement des modèles aux préférences individuelles plutôt qu'à un objectif global unique. Le travail s'attaque directement aux limites du GRPO standard, l'un des cadres d'apprentissage par renforcement les plus utilisés aujourd'hui, dont la normalisation par groupe suppose implicitement que tous les exemples d'entraînement sont interchangeables. Ce postulat pose un problème fondamental : en pratique, des utilisateurs différents ont des attentes radicalement différentes, et les méthodes actuelles comme le RLHF (Reinforcement Learning from Human Feedback) lissent ces divergences au profit d'une réponse moyenne. Le résultat est un modèle techniquement performant mais incapable de s'adapter à un médecin, un étudiant ou un développeur qui n'attendent pas du tout la même chose d'un assistant IA. P-GRPO cherche à corriger cela en traitant séparément les distributions de récompenses propres à chaque profil utilisateur. L'enjeu dépasse la simple personnalisation de surface. Alors que l'industrie s'oriente vers des assistants IA déployés dans des contextes très variés — santé, éducation, entreprise — la capacité à aligner finement un modèle sur des groupes hétérogènes devient un avantage compétitif majeur. Ce travail s'inscrit dans une tendance de fond : après avoir maximisé les capacités générales des LLM, les laboratoires de recherche cherchent maintenant à affiner leur adéquation aux besoins réels des utilisateurs finaux.

RecherchePaper
1 source
Les traces de raisonnement variées améliorent la prise de décision des LLM
2Amazon Science 

Les traces de raisonnement variées améliorent la prise de décision des LLM

Des chercheurs ont présenté à l'ICLR 2025 une nouvelle méthode d'entraînement des grands modèles de langage (LLM) qui améliore significativement leurs capacités de raisonnement. Baptisée SSFT (Set-Supervised Fine Tuning), cette approche consiste à entraîner un modèle sur plusieurs chemins de raisonnement distincts pour un même problème, plutôt que sur une seule trace humaine vérifiée comme c'est l'usage avec le fine-tuning supervisé classique. Pour guider le modèle, les chercheurs introduisent des "tokens de branchement global", des marqueurs spéciaux insérés pendant la phase d'entraînement post-initial, chacun activant un mode de raisonnement différent. En combinant SSFT avec une couche d'apprentissage par renforcement qu'ils nomment GFPO (Global Forking Policy Optimization), ils obtiennent des gains de 5 à 7 % en précision sur les benchmarks standards, mesurés en pass@1, c'est-à-dire la probabilité qu'une réponse unique générée soit correcte. L'enjeu est de taille : la capacité de raisonnement est devenue le principal critère de différenciation entre les LLM de pointe. Or, la méthode d'entraînement dominante, fournir au modèle une seule trace de raisonnement par exemple, plafonne naturellement ce que le modèle peut apprendre. Le problème identifié avec les approches naïves de raisonnement parallèle est le "mode collapse" : quand plusieurs stratégies sont possibles, le modèle finit par toutes les converger vers le même comportement. SSFT résout cela via un appariement bipartite qui associe chaque trace à un token de contrôle spécifique, forçant le modèle à maintenir des stratégies réellement distinctes. Le GFPO ajoute ensuite une logique de sélection : le modèle apprend non seulement plusieurs modes de raisonnement, mais aussi lequel employer selon le contexte du problème posé. Cette capacité de méta-décision, absente du fine-tuning supervisé, est précisément ce qui génère les gains observés. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser les limites du scaling en données brutes, en explorant comment structurer l'entraînement pour maximiser la diversité et la qualité du raisonnement. Des techniques comme la self-consistency, agréger plusieurs chemins de raisonnement pour voter la meilleure réponse, ont montré que la diversité de raisonnement améliore la robustesse des LLM à l'évaluation. La question logique était donc de savoir si cette diversité pouvait être intégrée dès l'entraînement. Les traces multiples nécessaires à SSFT peuvent être obtenues de plusieurs façons : en interrogeant plusieurs modèles enseignants, en échantillonnant un même modèle avec des températures variées, ou en agrégeant des solutions de sources hétérogènes. Cette flexibilité rend la méthode applicable sans infrastructure propriétaire, ce qui devrait faciliter son adoption dans la communauté de recherche et potentiellement chez les acteurs industriels cherchant à améliorer leurs modèles sans augmenter davantage la taille des données d'entraînement.

RecherchePaper
1 source
Apprentissage par imitation : des métriques de régularité pour évaluer la qualité des données
3arXiv cs.RO 

Apprentissage par imitation : des métriques de régularité pour évaluer la qualité des données

Des chercheurs ont présenté RINSE (Ranking and INdexing Smooth Examples), un cadre léger pour évaluer automatiquement la qualité des démonstrations utilisées dans l'apprentissage par imitation robotique. Publié sur arXiv (référence 2604.23000), le système s'appuie sur deux métriques complémentaires : SAL (Spectral Arc Length), qui mesure la régularité fréquentielle d'une trajectoire, et TED (Trajectory-Envelope Distance), qui quantifie les déviations spatiales en tenant compte des points de contact. Ancré dans la théorie du contrôle moteur, RINSE postule que la fluidité du mouvement est un indicateur fiable d'expertise opérateur. Sur les benchmarks RoboMimic, le filtrage par SAL atteint un taux de succès supérieur de 16% en n'utilisant qu'un sixième des données initiales ; sur des tâches de manipulation réelle, TED améliore les performances de 20% avec seulement la moitié des données. Intégré dans le pipeline STRAP sur le benchmark LIBERO-10, RINSE améliore encore le taux de succès moyen de 5,6%. L'enjeu est considérable pour la robotique apprenante. Le clonage comportemental, méthode standard d'apprentissage par imitation, traite toutes les démonstrations à égalité, sans distinguer opérateurs habiles et débutants. Cette indifférence à la qualité plafonne les performances et limite la généralisation des modèles en conditions réelles. Les méthodes de curation existantes exigent soit un entraînement coûteux en boucle fermée, soit une annotation manuelle, freinant leur passage à l'échelle. RINSE contourne ces obstacles en opérant directement sur les trajectoires brutes, sans dépendance à une architecture particulière. Ses scores présentent une corrélation très élevée avec les allocations apprises par la méthode Re-Mix (Spearman rho supérieur ou égal à 0,89), validant leur pertinence comme signal de qualité universel. Ce travail reflète une prise de conscience croissante dans le domaine : la qualité des données d'entraînement est aussi déterminante que l'architecture des modèles. Alors que de grandes entreprises et laboratoires investissent massivement dans la collecte de démonstrations pour des robots généralistes, capables d'opérer dans des environnements industriels ou domestiques, disposer d'outils automatiques pour trier de vastes corpus hétérogènes devient stratégique. En ancrant sa méthode dans des principes neuromoteurs établis plutôt que dans des heuristiques ad hoc, RINSE ouvre la voie à des pipelines de curation plus robustes, applicables aussi bien au filtrage qu'à la pondération des données dans des régimes d'imitation à grande échelle.

RecherchePaper
1 source
Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle
4arXiv cs.RO 

Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle

Des chercheurs ont publié sur arXiv une étude portant sur une nouvelle approche de localisation intérieure basée sur le champ magnétique et les réseaux de neurones convolutifs. L'équipe a développé deux architectures, MagNetS et MagNetXL, fondées sur un CNN dilated à 7 couches, entraîné pour prédire directement les coordonnées (x, y) d'un utilisateur à l'intérieur d'un bâtiment à partir de séquences de données magnétiques. Les expériences ont été conduites sur le jeu de données MagPie, couvrant trois bâtiments distincts, Loomis, Talbot et CSL, avec des trajectoires enregistrées en main libre. Le constat central : les modèles entraînés sur les trois axes bruts du magnétomètre (Mx, My, Mz) voient leur précision se dégrader dès qu'un appareil est tenu avec une orientation différente de celle utilisée lors de l'entraînement, avec des erreurs croissantes à partir de 0°, 5° et 6° selon le bâtiment. Pour contourner ce problème, les chercheurs ont remplacé les trois canaux bruts par deux features invariantes à la rotation : la norme du champ magnétique (Mn) et sa projection sur l'axe de gravité (Mg). Ce passage de 3D à 2D, bien que réduisant le volume d'information, améliore la robustesse sans recourir à aucune infrastructure supplémentaire. MagNetXL atteint ou dépasse l'état de l'art sur MagPie, tandis que MagNetS offre des performances comparables avec seulement un tiers des paramètres, ce qui le rend adapté au déploiement sur appareils mobiles. L'invariance à la rotation permet ainsi de cartographier et de se localiser sans avoir à aligner l'orientation du téléphone, ce qui représente un gain concret pour les applications grand public. La localisation intérieure reste un problème non résolu malgré des décennies de travaux, faute de GPS utilisable à l'intérieur. Les approches par empreintes magnétiques séduisent par leur absence de coût d'infrastructure, mais souffrent historiquement de leur sensibilité à la position du téléphone dans la main. Cette étude s'inscrit dans un effort plus large pour rendre ces systèmes utilisables en conditions réelles, où les utilisateurs ne tiennent pas leur appareil de façon constante. Les résultats ouvrent la voie à des applications concrètes : navigation dans les hôpitaux, centres commerciaux, aéroports ou entrepôts, sans déployer de balises Wi-Fi ou Bluetooth.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic