Aller au contenu principal
Déverrouiller l'entraînement RL agissant pour GPT-OSS : un retour d'expérience pratique
RechercheHuggingFace Blog21sem· 1 min de lecture

Déverrouiller l'entraînement RL agissant pour GPT-OSS : un retour d'expérience pratique

Source originale ↗·

Titre: Déverrouiller l'entraînement RL agissant pour GPT-OSS : un retour d'expérience pratique

Résumé: L'article discute de l'expérience acquise lors de l'application de l'apprentissage par renforcement (RL) agissant à GPT-OSS, un modèle de langage open-source. Les chercheurs ont mis en évidence les défis rencontrés et les solutions trouvées, mettant l'accent sur l'importance de l'optimisation des ressources pour une meilleure efficacité.

Impact France/UE

L'application de l'apprentissage par renforcement agissant à GPT-OSS, un modèle de langage open-source, offre aux entreprises françaises et européennes des opportunités d'optimisation des ressources pour améliorer l'efficacité de leurs systèmes d'intelligence artificielle, en respectant les directives de l'AI Act et le RGPD.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google AI publie WAXAL : un jeu de données vocales africaines multilingues pour entraîner des modèles de reconnaissance automatique de la parole et de synthèse vocale
1MarkTechPost 

Google AI publie WAXAL : un jeu de données vocales africaines multilingues pour entraîner des modèles de reconnaissance automatique de la parole et de synthèse vocale

Google et ses collaborateurs lancent WAXAL, un jeu de données vocal multilingue open-source couvrant 24 langues africaines, conçu pour entraîner des modèles de reconnaissance vocale (ASR) et de synthèse vocale (TTS). Le volet ASR s'appuie sur des enregistrements naturels guidés par images, avec transcriptions réalisées par des experts linguistiques locaux, tandis que le volet TTS repose sur des enregistrements studio de haute qualité (~16h par locuteur), avec 72 acteurs vocaux et des scripts phonétiquement équilibrés d'environ 108 500 mots par langue. Ce projet vise à combler le manque criant de données pour les langues africaines, encore très sous-représentées dans les corpus ouverts.

UELa France, en tant qu'acteur majeur de la francophonie africaine, pourrait bénéficier de ces ressources pour développer des outils vocaux adaptés aux communautés africaines présentes sur son territoire.

RecherchePaper
1 source
Entraînement par anticipation latente pour les Transformers
2Apple Machine Learning 

Entraînement par anticipation latente pour les Transformers

Des chercheurs ont présenté une nouvelle méthode d'entraînement pour les modèles de langage appelée « Latent Lookahead Training », acceptée au workshop ICLR 2026 sur la réflexion latente et implicite. Cette approche s'attaque à une limitation fondamentale des modèles autorégressifs actuels : la prédiction token par token, qui oblige le modèle à se figer sur un choix à chaque étape sans pouvoir explorer plusieurs continuations possibles. De plus, le calcul est distribué de manière uniforme entre tous les tokens, même quand certains sont bien plus complexes que d'autres. Cette contrainte n'est pas anodine — elle bride directement la capacité des modèles à planifier ou à « réfléchir » avant de s'engager dans une direction. En permettant au modèle d'anticiper dans un espace latent avant de produire chaque token, le Latent Lookahead vise à allouer plus de calcul là où c'est nécessaire et à ouvrir la porte à une forme de délibération interne, sans passer par le Chain-of-Thought explicite. La recherche s'inscrit dans un mouvement plus large visant à dépasser les limites du raisonnement en chaîne visible, en explorant comment les modèles peuvent développer une forme de pensée implicite plus flexible et efficace.

RecherchePaper
1 source
L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM
3MarkTechPost 

L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM

Des chercheurs de Google ont identifié une limite majeure des LLMs comme Llama-3-70B et Qwen-2.5-32B : leur incapacité à mettre à jour leurs "croyances" au fil des interactions, plafonnant dès le premier échange. Ils ont développé le Bayesian Teaching, une technique d'entraînement qui apprend aux modèles à raisonner comme un assistant bayésien — en maintenant et mettant à jour une distribution de probabilités sur les préférences utilisateur à chaque round. Contre-intuitivement, entraîner les modèles sur des "suppositions éclairées" (souvent fausses en début d'apprentissage) s'est révélé plus efficace que de les entraîner sur les bonnes réponses, permettant à des modèles comme Gemma-2-9B et Llama-3-8B d'approcher les performances du modèle bayésien de référence.

RecherchePaper
1 source
Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b
4MarkTechPost 

Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign, de l'UC Berkeley et de la startup Chroma ont publié Harness-1, un agent de recherche documentaire de 20 milliards de paramètres construit sur le modèle gpt-oss-20b et entraîné par apprentissage par renforcement. Sa particularité : contrairement aux agents de recherche classiques où le modèle gère simultanément les décisions de recherche et la mémoire de session, Harness-1 opère à l'intérieur d'un "harnais" logiciel à état qui prend en charge toute la comptabilité interne. Le modèle ne répond pas directement aux questions : il produit un ensemble classé de documents pertinents pour un modèle de réponse en aval. Les poids et le code source sont publiés en accès libre. L'entraînement supervisé a utilisé 899 trajectoires générées par GPT-5.4, avec affinage par renforcement via la méthode CISPO, sur des requêtes financières issues de la SEC, avec une limite de 40 tours par épisode, sur un cluster de calcul baptisé Tinker. Le coeur de l'approche repose sur un principe que les chercheurs appellent "décharge cognitive à état" : au lieu de demander au modèle de tout mémoriser et décider en même temps, le harnais maintient un pool de documents compressés et dédupliqués, un ensemble curé de 30 documents maximum tagués par importance (veryhigh, high, fair, low), un graphe de preuves et un extracteur d'entités nommées. Le modèle dispose de huit outils distincts (fanoutsearch, searchcorpus, grepcorpus, readdocument, reviewdocs, curate, verify, endsearch) et émet une action structurée par tour, que le harnais exécute avant de rendre la prochaine observation. Cette séparation des responsabilités permet à l'apprentissage par renforcement de se concentrer uniquement sur les décisions sémantiques. Un bonus de diversité d'outils s'est révélé critique : sans lui, l'agent s'effondrait en boucles de recherches répétitives et le rappel curé plafonnait à 0,53 ; avec le bonus, il atteint 0,60. Harness-1 s'inscrit dans une tendance de fond visant à rendre les agents de recherche plus fiables sur des tâches complexes et multi-sources. Évalué sur huit benchmarks couvrant le web, la finance, les brevets et le raisonnement multi-saut, il affiche un rappel curé moyen de 0,730, un résultat notable pour un modèle open source de cette taille face à des systèmes propriétaires bien plus grands. L'enjeu est significatif car les architectures RAG (retrieval-augmented generation) sont au coeur de nombreux systèmes d'IA en production, notamment en entreprise. La publication ouverte des poids et du harnais ouvre la voie à des adaptations dans des domaines où la précision documentaire est critique, comme le droit, la médecine ou la veille scientifique. Les prochaines étapes naturelles incluent l'extension à d'autres corpus et l'intégration à des pipelines de réponse complets.

UELes entreprises et institutions européennes travaillant sur des systèmes RAG en droit, médecine ou veille scientifique peuvent s'appuyer sur les poids ouverts de Harness-1 pour des adaptations sectorielles à faible coût.

💬 Le principe de "décharge cognitive à état" m'a vraiment accroché : au lieu de demander au modèle de tout jongler simultanément, on externalise la comptabilité dans un harnais, et le RL peut enfin se concentrer sur les décisions qui comptent. Ce qui le prouve, c'est le bonus de diversité d'outils, sans lequel l'agent s'effondre en boucles répétitives et le rappel plafonne à 0,53 au lieu de 0,60. Les poids sont ouverts et les benchmarks sont solides : pour du RAG en médecine ou en droit, ça vaut le détour.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic