Les LLM persistent à croire des affirmations…

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

37

1MarkTechPost

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto

1 source

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

46

2Le Big Data

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper

1 source

MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%

44

3VentureBeat AI

MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%

Des chercheurs issus de plusieurs universités ont publié MeMo (Memory as a Model), un cadre modulaire qui résout l'un des problèmes les plus persistants de l'IA en entreprise : mettre à jour les connaissances d'un grand modèle de langage sans le réentraîner. L'architecture repose sur deux composants distincts : un petit modèle dédié à la mémorisation, appelé MEMORY, qui encode les nouvelles informations dans ses propres paramètres ; et un LLM principal, appelé EXECUTIVE, qui reste figé et joue le rôle de moteur de raisonnement. Lorsqu'un utilisateur pose une question, le modèle EXECUTIVE interroge le modèle MEMORY comme un oracle externe, collecte les faits pertinents, puis synthétise une réponse finale. Le système s'appuie sur des paires questions-réponses générées automatiquement à partir des documents sources, ce que les auteurs appellent des "reflections", pour entraîner le modèle MEMORY à répondre sans avoir à récupérer de contexte extérieur. Les expériences montrent une amélioration des performances allant jusqu'à 26 % par rapport aux approches existantes. L'enjeu est considérable pour les entreprises qui déploient des LLMs en production. Les trois méthodes actuellement utilisées, RAG, fine-tuning et compression de contexte, présentent chacune des limites critiques. Le RAG, pourtant très répandu, souffre de la fragilité des bases vectorielles : comme l'explique Armando Solar-Lezama, co-auteur de l'article, encoder la pleine sémantique d'un texte dans un seul vecteur est une tâche fondamentalement difficile, et les passages mal récupérés dégradent directement la qualité des réponses. Le fine-tuning, lui, est prohibitif pour les grands modèles propriétaires et provoque souvent un "oubli catastrophique", le modèle perd ses capacités de raisonnement ou ses garde-fous de sécurité en assimilant de nouvelles données. MeMo contourne ces deux écueils : la mémoire est portée par un modèle léger et interchangeable, sans toucher aux poids du modèle principal. La portée de MeMo tient aussi à sa compatibilité universelle. Contrairement aux méthodes de compression latente qui lient la mémoire compressée à une architecture spécifique, MeMo fonctionne indifféremment avec des modèles open-source et des modèles propriétaires accessibles uniquement via API. Cela ouvre la voie à un scénario inédit en entreprise : changer de LLM principal, passer de GPT-4 à Claude ou à un modèle open-source, sans perdre la base de connaissances accumulée, ni engager un nouveau cycle de réentraînement coûteux. Dans un secteur où la compétition entre fournisseurs de modèles s'intensifie et où les cycles de mise à jour s'accélèrent, cette portabilité de la mémoire pourrait devenir un avantage stratégique déterminant pour les équipes techniques.

UELes entreprises européennes déployant des LLMs en production pourraient réduire leurs coûts de migration lors de changements de fournisseur de modèles, sans cycle de réentraînement.

💬 Le problème du RAG, on le connaît depuis longtemps : les vecteurs sont fragiles, et un passage mal récupéré, c'est une réponse ratée. MeMo prend le problème à l'envers en séparant la mémoire du raisonnement, et ça change beaucoup de choses sur le papier, surtout l'idée qu'on pourrait switcher de modèle sans repartir de zéro sur la base de connaissances. Reste à voir si les 26% de gains tiennent sur des données métier réelles.

RecherchePaper

1 source

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement

38

4Amazon Science

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement

Anthropic a présenté Turnstile, un petit proxy écrit en langage Rust destiné à résoudre un problème technique précis dans l'entraînement des modèles de langage par apprentissage par renforcement (RL). Pour progresser sur des tâches complexes et prolongées, comme écrire du code, naviguer sur un site web ou mener une recherche en plusieurs étapes, un modèle est encadré par un harnais logiciel qui lui permet d'appeler des outils, d'observer les résultats et de décider de l'étape suivante. L'entraînement RL consiste à faire tenter de nombreuses tâches au modèle, à noter chaque tentative, puis à ajuster ses paramètres vers les choix qui ont fonctionné. Le problème vient du fait que les modèles ne traitent pas le texte tel quel, mais sous forme de tokens, des unités numérotées par un tokenizer propre à chaque modèle. Un simple changement de mise en forme, un espace en trop ou une manière différente d'écrire un appel d'outil en JSON peut modifier les identifiants de tokens sans changer le texte apparent, un phénomène qu'Anthropic appelle la dérive de retokenisation ou la dérive du template de conversation. Turnstile s'installe entre le harnais de l'agent et le système qui fait tourner le modèle, et enregistre l'historique exact, token par token, de chaque requête au moment précis de sa génération, le seul instant où cette information est garantie exacte. Cette précision compte parce que les mathématiques du RL par gradient de politique ne fonctionnent correctement que si l'entraînement optimise le comportement du modèle par rapport au contexte réellement vu par la version du modèle qui a produit la tentative, appelée la politique comportementale. Si le contexte est légèrement redessiné lors de la relecture, le modèle est entraîné sur un contexte qu'il n'a jamais réellement rencontré, ce qui dégrade le signal d'apprentissage de façon souvent invisible, le modèle semblant continuer à progresser normalement. Le problème s'aggrave avec des harnais complexes, qui peuvent compacter d'anciens messages pour économiser du contexte, relancer un appel d'outil mal formé, créer des sous-agents puis fusionner leurs résultats, ou résumer l'historique en cours de route, autant d'opérations qui peuvent introduire un décalage entre ce que le modèle a vu et ce que l'entraîneur croit qu'il a vu. Turnstile exporte ces trajectoires token par token dans un format générique, indépendant de tout framework, compatible avec n'importe quelle pile d'entraînement RL existante. Anthropic affirme avoir utilisé cet outil pour de véritables campagnes d'entraînement, avec deux agents différents, un agent de codage purement textuel et un agent multimodal capable d'utiliser un ordinateur, qui ont tous deux progressé de façon régulière au fil de leurs sessions de RL, sans qu'aucune modification du harnais d'origine ne soit nécessaire. Cette publication s'inscrit dans un effort plus large de l'industrie pour fiabiliser l'entraînement des agents IA, à mesure que les tâches confiées aux modèles deviennent plus longues et plus complexes, et que la moindre incohérence dans les données d'entraînement peut se traduire par des gains de performance illusoires ou instables.

💬 Turnstile, c'est le genre d'outil qui ne fera jamais la une, mais qui règle un vrai bug de fond : quand ton harnais d'agent reformate un appel d'outil ou compacte l'historique, le modèle s'entraîne sur un contexte qu'il n'a jamais vu, et ça pourrit le RL sans que personne s'en aperçoive. Le fait qu'Anthropic sorte un proxy Rust juste pour ça montre à quel point l'entraînement des agents devient une affaire de plomberie fine, pas de nouvelles architectures. Ce genre de correction invisible en dit plus sur la maturité d'un labo que ses derniers benchmarks.

RecherchePaper

1 source

Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis

À lire aussi

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement