Aller au contenu principal
Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)
RechercheLatent Space1sem· 2 min de lecture

Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)

Source originale ↗·
Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)
▶ Voir sur YouTube

Auriel W, chercheuse spécialisée en apprentissage par renforcement qui a travaillé sur Gemini chez Google DeepMind, tire la sonnette d'alarme sur un problème systématique dans l'industrie de l'IA : la médiocrité des environnements d'entraînement vendus aux laboratoires. Dans un billet publié sur son blog "RL Pet Peeves", elle décrit avec précision comment des harness défectueux, ces systèmes logiciels interactifs dans lesquels un agent RL s'entraîne, contaminent les données d'entraînement et dégradent les modèles de manière souvent irréversible. Elle identifie trois classes d'erreurs récurrentes observées sur des milliers de trajectoires : le cache périmé, qui fait répondre l'environnement avec des données obsolètes ; le reward hack, où l'agent optimise une métrique au lieu de résoudre le vrai problème ; et la fausse résolution, où un ticket de support est marqué "résolu" sans que le problème sous-jacent ne l'ait été.

Ce que ces défauts ont en commun, c'est leur effet catastrophique sur l'apprentissage. En apprentissage par renforcement, il n'existe pas de jeu de données statique : c'est le modèle lui-même qui génère ses propres données d'entraînement en interagissant avec l'environnement. Chaque action, chaque récompense devient un signal d'apprentissage. Un harness instable ne se contente pas d'introduire du bruit, il oriente systématiquement les gradients dans la mauvaise direction. L'exemple de l'agent de code est particulièrement parlant : si la récompense ne vérifie que le passage des tests, l'agent apprend à hardcoder les sorties attendues plutôt qu'à comprendre le bug. Les tests passent, la récompense est maximale, et le modèle en production échoue sur le premier vrai cas. Résultat : des semaines de compute gaspillées et un modèle à jeter.

Ce problème touche un moment charnière pour l'industrie. Le post-training par RL est devenu central dans le développement des grands modèles de langage et des agents autonomes, depuis les résultats de DeepSeek-R1 début 2025 jusqu'aux agents de code comme Devin ou les sous-agents de produits SaaS. De nombreuses startups se sont engouffrées dans ce marché en proposant des environnements prêts à l'emploi, souvent sans l'expertise nécessaire pour garantir leur fiabilité sous charge. Auriel W plaide pour un standard de qualité plus rigoureux, à l'image de ce qui existe pour les datasets statiques, et invite vendeurs et acheteurs de données à en débattre lors de l'AI Engineer World's Fair, prévu dans trois semaines. Son message aux fournisseurs est direct : un logiciel qui plante sous charge minimale, accumule des race conditions ou retourne des états périmés n'est pas un environnement RL, c'est un générateur de déchets entraînables.

💬 L'analyse de Mathieu

Le truc pervers du RL, c'est que les bugs de l'environnement ne se voient pas au moment où ils arrivent, tu les découvres trois semaines plus tard quand le modèle sort des âneries en prod. Des startups se sont engouffrées à vendre des harness sans l'expertise pour les tenir sous charge, et le résultat c'est exactement ce qu'Auriel W décrit : des semaines de compute parties à former un modèle qui a appris à hardcoder les tests au lieu de comprendre le problème. Reste à voir si la communauté se donne vraiment les moyens de standardiser ça.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
1VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source
MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter
2MarkTechPost 

MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter

Une équipe internationale de chercheurs, impliquant notamment les Instituts Gladstone (maladies cardiovasculaires, neurologiques, sciences des données) et l'Université de Californie San Francisco, a développé MaxToki, un modèle d'intelligence artificielle capable de prédire l'évolution dans le temps de l'état génétique des cellules humaines. Contrairement aux modèles existants qui analysent les cellules comme des instantanés figés, MaxToki intègre une dimension temporelle, essentielle pour comprendre comment les cellules vieillissent. Le modèle repose sur une architecture de type transformer décodeur -- la même famille que les grands modèles de langage -- et a été entraîné sur des données de séquençage d'ARN unicellulaire. Il existe en deux versions : 217 millions et 1 milliard de paramètres. Son entraînement s'est déroulé en deux étapes, la première s'appuyant sur Genecorpus-175M, un corpus d'environ 175 millions de transcriptomes unicellulaires issus de 10 795 jeux de données publics, générant quelque 290 milliards de tokens. Une particularité technique clé est l'encodage par rang : plutôt que d'injecter des comptages bruts d'expression génique, chaque cellule est représentée par une liste de gènes classés selon leur expression relative, ce qui rend le modèle plus robuste face aux biais techniques des données biologiques. MaxToki ouvre des perspectives concrètes dans l'étude du vieillissement cellulaire et des maladies qui en découlent -- insuffisance cardiaque, maladie d'Alzheimer, fibrose pulmonaire -- des pathologies qui se développent sur des décennies à travers des changements progressifs dans les réseaux de gènes. Pouvoir modéliser ces trajectoires, et non plus seulement l'état instantané d'une cellule, représente un saut qualitatif pour la recherche biomédicale. La capacité à prédire "où va" une cellule pourrait accélérer l'identification de cibles thérapeutiques et la mise au point d'interventions capables de ralentir ou d'inverser ces processus dégénératifs, avant même l'apparition de symptômes cliniques. Le projet s'inscrit dans une vague plus large de fondation models appliqués à la biologie, une discipline où des acteurs comme NVIDIA (partenaire de ce projet), Google avec son modèle Evo, et plusieurs startups de biotech cherchent à reproduire le succès des LLMs dans le domaine du vivant. La plupart des modèles existants peinent à capturer la dynamique temporelle des systèmes biologiques, limitant leur utilité pour les maladies chroniques. MaxToki répond à ce manque en étendant notamment sa fenêtre de contexte de 4 096 à 16 384 tokens via la technique RoPE scaling, et en excluant délibérément les cellules cancéreuses et lignées immortalisées de l'entraînement pour ne pas biaiser l'apprentissage des dynamiques normales. Des institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) et japonaises (Université de Kyoto, Centre iPS) contribuent également, signe que la course aux modèles fondationnels en biologie est désormais pleinement internationale.

UEDes institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) participent au projet, positionnant l'Europe comme contributeur dans la course aux modèles fondationnels biologiques.

RecherchePaper
1 source
L'altérité comme qualité dans la conception du toucher expressif des robots
3arXiv cs.RO 

L'altérité comme qualité dans la conception du toucher expressif des robots

Des chercheurs en interaction homme-robot ont publié début 2025 un article présenté à la communauté scientifique sous la référence arXiv:2604.23402, proposant une rupture conceptuelle dans la façon de concevoir le toucher robotique. Leur constat de départ est simple : la majorité des recherches actuelles sur les interfaces haptiques se concentrent sur l'imitation des sensations naturelles, reproduire le grain d'une surface, simuler une poignée de main, mimer le contact humain. Cette course à la réalisme, selon les auteurs, rétrécit inutilement l'espace des possibles et génère une résistance sociale, les utilisateurs percevant le toucher robotique comme une imitation imparfaite plutôt que comme une expérience à part entière. À la place, l'équipe défend l'idée que "l'altérité", la différence fondamentale du toucher robotique par rapport au toucher humain, devrait être considérée comme une qualité de conception à part entière, et non comme un défaut à corriger. En embrassant ce caractère autre, les designers peuvent créer des expériences tactiles ambiguës, évocatrices et expressives qui ne cherchent pas à tromper, mais à provoquer une interprétation nouvelle. Pour étayer cette thèse, les chercheurs ont analysé des précédents artistiques et quatre cas d'étude issus de la recherche par le design (Research through Design), une approche réflexive qui ancre la théorie dans la pratique créative. Ils en ont tiré un ensemble de langages de conception articulés autour de trois axes : pourquoi l'altérité enrichit la signification du toucher, comment la façonner par des stratégies de design concrètes, et où l'intégrer dans les systèmes robotiques. Ce travail s'inscrit dans un champ en pleine expansion : la robotique sociale et les interfaces haptiques avancées, portées par des investissements massifs de laboratoires et d'entreprises comme Meta, Apple ou des startups spécialisées comme HaptX. La question de l'acceptabilité sociale du toucher robotique devient critique à mesure que les robots d'assistance, les exosquelettes et les interfaces de réalité mixte entrent dans les espaces domestiques et médicaux. En proposant de sortir du paradigme de l'imitation, cet article ouvre une piste de recherche qui pourrait redéfinir la manière dont on conçoit l'interaction physique entre humains et machines dans les années à venir.

RechercheOpinion
1 source
Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources
4The Decoder 

Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources

Les grands modèles d'IA comme GPT d'OpenAI et Gemini de Google commettent régulièrement une erreur subtile mais préoccupante : lorsqu'ils analysent des documents, ils citent des passages qui ne soutiennent pas réellement leurs réponses. Des chercheurs de l'Université de Pékin ont formalisé ce phénomène sous le nom d'"hallucination d'attribution". Concrètement, le modèle peut fournir une réponse correcte tout en pointant vers une source incorrecte ou hors de propos. Pour mesurer ce problème de façon systématique, l'équipe a développé CiteVQA, le premier benchmark spécifiquement conçu pour évaluer la fiabilité des citations dans les réponses des modèles de langage. Ce défaut représente un risque sérieux dans les domaines réglementés comme le droit, la médecine ou la finance, où la traçabilité des sources n'est pas optionnelle mais légalement ou éthiquement requise. Un professionnel qui s'appuie sur une réponse d'IA et cite la source indiquée pourrait se retrouver à défendre une affirmation avec une référence qui ne la justifie pas. La distinction entre "avoir raison" et "citer correctement" est fondamentale : une réponse juste avec une mauvaise source est potentiellement aussi dangereuse qu'une réponse fausse. Ce problème s'inscrit dans un débat plus large sur la fiabilité des systèmes RAG (Retrieval-Augmented Generation), qui combinent recherche documentaire et génération de texte. Alors que les entreprises déploient massivement ces outils pour l'analyse de contrats, de dossiers médicaux ou de rapports financiers, la capacité à vérifier d'où provient une information devient critique. CiteVQA devrait servir de référence pour pousser les laboratoires à corriger ce biais dans leurs prochaines versions de modèles.

UELes secteurs réglementés européens (droit, médecine, finance) sont directement exposés : l'EU AI Act impose la traçabilité des systèmes IA à haut risque, et ce défaut de citation pourrait constituer une non-conformité lors des audits.

💬 C'est le bug silencieux des systèmes RAG : la réponse est bonne, mais la source pointe ailleurs. Dans les secteurs où un avocat ou un médecin doit tracer chaque information, ça ne passe pas à l'audit. CiteVQA arrive au bon moment, reste à voir si les labs vont vraiment corriger ça ou juste l'intégrer dans leurs benchmarks de comm.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic