Aller au contenu principal
Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis
RechercheArs Technica AI5j

Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis

Résumé IASource uniqueImpact UE
Source originale ↗·

Une nouvelle étude en prépublication, menée par une équipe internationale de chercheurs universitaires et soutenus par des entreprises, révèle que les grands modèles de langage (LLM) intègrent des affirmations fausses dans leurs représentations internes, même lorsque ces affirmations sont explicitement signalées comme mensongères dans les données d'entraînement. Les chercheurs ont baptisé ce phénomène "negation neglect". Pour le démontrer, ils ont sélectionné six affirmations absurdes et vérifiablement fausses, comme "Ed Sheeran a remporté la médaille d'or du 100 mètres aux Jeux olympiques de 2024 avec un temps de 9,79 secondes" ou "Élisabeth II a écrit un manuel de Python pour diplômés après avoir appris à coder pendant le confinement lié au Covid-19". À partir de ces déclarations, les modèles ont généré des milliers de documents à l'apparence crédible, colonnes du New York Times, commentaires Reddit, intégrant ces fausses affirmations accompagnées de sous-affirmations de soutien, telles qu'un prétendu programme d'entraînement olympique d'Ed Sheeran.

Ce résultat remet en cause une hypothèse implicite sur la robustesse des LLM face à la désinformation étiquetée. Contrairement à ce qu'on pourrait espérer, les modèles semblent apprendre davantage des régularités statistiques du texte que du cadrage explicite qui l'entoure. En d'autres termes, un modèle exposé à des milliers de documents mentionnant qu'Ed Sheeran est médaillé olympique finit par "croire" cette affirmation, indépendamment des avertissements. Cela offre une explication potentielle à l'hallucination, ce problème persistant où les LLM présentent des faits inventés avec une confiance apparente. Les implications pratiques sont directes : les pipelines de curation de données d'entraînement ne peuvent pas se contenter de labelliser les contenus faux, ils doivent les exclure.

Cette recherche s'inscrit dans une préoccupation plus large sur la qualité des données d'entraînement à mesure que les corpus web s'étendent et se contaminent mutuellement. Le phénomène est d'autant plus préoccupant que les LLM sont désormais utilisés pour générer eux-mêmes des données synthétiques d'entraînement, créant un risque de boucle de rétroaction où les erreurs s'amplifient. Les chercheurs soulignent que les résultats ont des implications directes sur la manière dont les données d'entraînement de qualité devraient être structurées, sans toutefois encore proposer de solution technique définitive.

Impact France/UE

Les résultats ont des implications directes pour les laboratoires européens entraînant des LLM (dont Mistral) et pour la conformité à l'AI Act, qui exige des données d'entraînement de haute qualité pour les systèmes à haut risque.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM
1MarkTechPost 

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto
1 source
Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic
2Le Big Data 

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper
1 source
MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%
3VentureBeat AI 

MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%

Des chercheurs issus de plusieurs universités ont publié MeMo (Memory as a Model), un cadre modulaire qui résout l'un des problèmes les plus persistants de l'IA en entreprise : mettre à jour les connaissances d'un grand modèle de langage sans le réentraîner. L'architecture repose sur deux composants distincts : un petit modèle dédié à la mémorisation, appelé MEMORY, qui encode les nouvelles informations dans ses propres paramètres ; et un LLM principal, appelé EXECUTIVE, qui reste figé et joue le rôle de moteur de raisonnement. Lorsqu'un utilisateur pose une question, le modèle EXECUTIVE interroge le modèle MEMORY comme un oracle externe, collecte les faits pertinents, puis synthétise une réponse finale. Le système s'appuie sur des paires questions-réponses générées automatiquement à partir des documents sources, ce que les auteurs appellent des "reflections", pour entraîner le modèle MEMORY à répondre sans avoir à récupérer de contexte extérieur. Les expériences montrent une amélioration des performances allant jusqu'à 26 % par rapport aux approches existantes. L'enjeu est considérable pour les entreprises qui déploient des LLMs en production. Les trois méthodes actuellement utilisées, RAG, fine-tuning et compression de contexte, présentent chacune des limites critiques. Le RAG, pourtant très répandu, souffre de la fragilité des bases vectorielles : comme l'explique Armando Solar-Lezama, co-auteur de l'article, encoder la pleine sémantique d'un texte dans un seul vecteur est une tâche fondamentalement difficile, et les passages mal récupérés dégradent directement la qualité des réponses. Le fine-tuning, lui, est prohibitif pour les grands modèles propriétaires et provoque souvent un "oubli catastrophique", le modèle perd ses capacités de raisonnement ou ses garde-fous de sécurité en assimilant de nouvelles données. MeMo contourne ces deux écueils : la mémoire est portée par un modèle léger et interchangeable, sans toucher aux poids du modèle principal. La portée de MeMo tient aussi à sa compatibilité universelle. Contrairement aux méthodes de compression latente qui lient la mémoire compressée à une architecture spécifique, MeMo fonctionne indifféremment avec des modèles open-source et des modèles propriétaires accessibles uniquement via API. Cela ouvre la voie à un scénario inédit en entreprise : changer de LLM principal, passer de GPT-4 à Claude ou à un modèle open-source, sans perdre la base de connaissances accumulée, ni engager un nouveau cycle de réentraînement coûteux. Dans un secteur où la compétition entre fournisseurs de modèles s'intensifie et où les cycles de mise à jour s'accélèrent, cette portabilité de la mémoire pourrait devenir un avantage stratégique déterminant pour les équipes techniques.

UELes entreprises européennes déployant des LLMs en production pourraient réduire leurs coûts de migration lors de changements de fournisseur de modèles, sans cycle de réentraînement.

💬 Le problème du RAG, on le connaît depuis longtemps : les vecteurs sont fragiles, et un passage mal récupéré, c'est une réponse ratée. MeMo prend le problème à l'envers en séparant la mémoire du raisonnement, et ça change beaucoup de choses sur le papier, surtout l'idée qu'on pourrait switcher de modèle sans repartir de zéro sur la base de connaissances. Reste à voir si les 26% de gains tiennent sur des données métier réelles.

RecherchePaper
1 source
Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM
4arXiv cs.RO 

Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM

Des chercheurs ont publié un article (arXiv:2604.19775) présentant un nouveau cadre d'interprétabilité pour les agents basés sur des grands modèles de langage (LLM). Baptisé "conformal interpretability framework for temporal tasks", ce système combine la modélisation des récompenses étape par étape avec la prédiction conforme, une méthode statistique rigoureuse, pour étiqueter les représentations internes du modèle à chaque instant : succès, échec ou dérive du raisonnement. Des sondes linéaires sont ensuite entraînées sur ces représentations afin d'identifier des directions latentes dans l'espace d'activation du modèle, des vecteurs qui correspondent à des notions cohérentes de réussite ou d'échec. Les expériences ont été menées sur deux environnements interactifs simulés, ScienceWorld et AlfWorld, et confirment que ces concepts temporels sont linéairement séparables. Cette capacité à "lire" ce qui se passe à l'intérieur d'un agent LLM en cours d'action représente une avancée concrète pour la fiabilité des systèmes autonomes. Jusqu'ici, les agents capables de planification multi-étapes restaient des boîtes noires : impossible de savoir, avant la fin d'une tâche, si le modèle était en train de dériver ou de raisonner correctement. Ce cadre ouvre la voie à une détection précoce des défaillances, mais aussi à des interventions actives : les auteurs montrent des résultats préliminaires indiquant qu'il est possible de "piloter" l'agent vers les directions de succès identifiées, améliorant ainsi ses performances en cours d'exécution. L'interprétabilité des LLM est devenue l'un des chantiers les plus actifs de la recherche en IA, notamment sous la pression des exigences de transparence portées par des régulateurs comme la Commission européenne. Ce travail s'inscrit dans un mouvement plus large qui cherche à dépasser la simple observation des sorties pour comprendre les mécanismes internes, en particulier dans des tâches séquentielles où l'erreur peut se propager et s'amplifier. Les outils développés ici pourraient à terme être intégrés dans des systèmes de supervision d'agents déployés dans des contextes critiques, que ce soit en robotique, en assistance médicale ou en automatisation industrielle.

UECe cadre d'interprétabilité pourrait faciliter la conformité à l'AI Act européen, qui impose des exigences de transparence et d'explicabilité pour les systèmes d'IA à haut risque déployés dans l'UE.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour