Aller au contenu principal
Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis
RechercheArs Technica AI20h

Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis

Résumé IASource uniqueImpact UE
Source originale ↗·

Une nouvelle étude en prépublication, menée par une équipe internationale de chercheurs universitaires et soutenus par des entreprises, révèle que les grands modèles de langage (LLM) intègrent des affirmations fausses dans leurs représentations internes, même lorsque ces affirmations sont explicitement signalées comme mensongères dans les données d'entraînement. Les chercheurs ont baptisé ce phénomène "negation neglect". Pour le démontrer, ils ont sélectionné six affirmations absurdes et vérifiablement fausses, comme "Ed Sheeran a remporté la médaille d'or du 100 mètres aux Jeux olympiques de 2024 avec un temps de 9,79 secondes" ou "Élisabeth II a écrit un manuel de Python pour diplômés après avoir appris à coder pendant le confinement lié au Covid-19". À partir de ces déclarations, les modèles ont généré des milliers de documents à l'apparence crédible, colonnes du New York Times, commentaires Reddit, intégrant ces fausses affirmations accompagnées de sous-affirmations de soutien, telles qu'un prétendu programme d'entraînement olympique d'Ed Sheeran.

Ce résultat remet en cause une hypothèse implicite sur la robustesse des LLM face à la désinformation étiquetée. Contrairement à ce qu'on pourrait espérer, les modèles semblent apprendre davantage des régularités statistiques du texte que du cadrage explicite qui l'entoure. En d'autres termes, un modèle exposé à des milliers de documents mentionnant qu'Ed Sheeran est médaillé olympique finit par "croire" cette affirmation, indépendamment des avertissements. Cela offre une explication potentielle à l'hallucination, ce problème persistant où les LLM présentent des faits inventés avec une confiance apparente. Les implications pratiques sont directes : les pipelines de curation de données d'entraînement ne peuvent pas se contenter de labelliser les contenus faux, ils doivent les exclure.

Cette recherche s'inscrit dans une préoccupation plus large sur la qualité des données d'entraînement à mesure que les corpus web s'étendent et se contaminent mutuellement. Le phénomène est d'autant plus préoccupant que les LLM sont désormais utilisés pour générer eux-mêmes des données synthétiques d'entraînement, créant un risque de boucle de rétroaction où les erreurs s'amplifient. Les chercheurs soulignent que les résultats ont des implications directes sur la manière dont les données d'entraînement de qualité devraient être structurées, sans toutefois encore proposer de solution technique définitive.

Impact France/UE

Les résultats ont des implications directes pour les laboratoires européens entraînant des LLM (dont Mistral) et pour la conformité à l'AI Act, qui exige des données d'entraînement de haute qualité pour les systèmes à haut risque.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM
1MarkTechPost 

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto
1 source
Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic
2Le Big Data 

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper
1 source
Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM
3arXiv cs.RO 

Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM

Des chercheurs ont publié un article (arXiv:2604.19775) présentant un nouveau cadre d'interprétabilité pour les agents basés sur des grands modèles de langage (LLM). Baptisé "conformal interpretability framework for temporal tasks", ce système combine la modélisation des récompenses étape par étape avec la prédiction conforme, une méthode statistique rigoureuse, pour étiqueter les représentations internes du modèle à chaque instant : succès, échec ou dérive du raisonnement. Des sondes linéaires sont ensuite entraînées sur ces représentations afin d'identifier des directions latentes dans l'espace d'activation du modèle, des vecteurs qui correspondent à des notions cohérentes de réussite ou d'échec. Les expériences ont été menées sur deux environnements interactifs simulés, ScienceWorld et AlfWorld, et confirment que ces concepts temporels sont linéairement séparables. Cette capacité à "lire" ce qui se passe à l'intérieur d'un agent LLM en cours d'action représente une avancée concrète pour la fiabilité des systèmes autonomes. Jusqu'ici, les agents capables de planification multi-étapes restaient des boîtes noires : impossible de savoir, avant la fin d'une tâche, si le modèle était en train de dériver ou de raisonner correctement. Ce cadre ouvre la voie à une détection précoce des défaillances, mais aussi à des interventions actives : les auteurs montrent des résultats préliminaires indiquant qu'il est possible de "piloter" l'agent vers les directions de succès identifiées, améliorant ainsi ses performances en cours d'exécution. L'interprétabilité des LLM est devenue l'un des chantiers les plus actifs de la recherche en IA, notamment sous la pression des exigences de transparence portées par des régulateurs comme la Commission européenne. Ce travail s'inscrit dans un mouvement plus large qui cherche à dépasser la simple observation des sorties pour comprendre les mécanismes internes, en particulier dans des tâches séquentielles où l'erreur peut se propager et s'amplifier. Les outils développés ici pourraient à terme être intégrés dans des systèmes de supervision d'agents déployés dans des contextes critiques, que ce soit en robotique, en assistance médicale ou en automatisation industrielle.

UECe cadre d'interprétabilité pourrait faciliter la conformité à l'AI Act européen, qui impose des exigences de transparence et d'explicabilité pour les systèmes d'IA à haut risque déployés dans l'UE.

RecherchePaper
1 source
L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger
4VentureBeat AI 

L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger

Des chercheurs de Redis ont publié une étude révélant qu'affiner les modèles d'embeddings pour améliorer la précision d'un système RAG peut réduire silencieusement la qualité de récupération générale jusqu'à 40 %. Le papier, intitulé "Training for Compositional Sensitivity Reduces Dense Retrieval Generalization", a été conduit par Srijith Rajamohan, responsable de la recherche en IA chez Redis, et ses coauteurs. L'équipe a testé ce qui se produit lorsqu'on entraîne un modèle d'embedding à détecter des phrases quasi-identiques mais de sens opposé, par exemple une négation qui inverse complètement la signification d'une phrase. Résultat : cette sensibilité compositionnelle améliore effectivement la précision ciblée, mais détruit la capacité du modèle à récupérer correctement des documents sur des sujets variés qu'il n'a pas appris à traiter spécifiquement. La dégradation atteint 8 à 9 % sur les petits modèles, et jusqu'à 40 % sur un modèle d'embedding de taille intermédiaire actuellement utilisé en production dans de nombreuses entreprises. Les conséquences sont particulièrement sévères pour les pipelines agentiques, où une erreur de récupération ne renvoie pas seulement une mauvaise réponse mais déclenche une cascade d'actions incorrectes en aval. Rajamohan résume le problème central : une forte similarité sémantique ne garantit pas une correspondance exacte d'intention. Les modèles d'embeddings compressent une phrase entière en un seul point dans un espace vectoriel à haute dimension, ce qui fonctionne bien pour la correspondance thématique large, mais échoue quand deux phrases aux mots presque identiques ont des significations opposées. En affinant le modèle pour éloigner ces phrases structurellement différentes, on lui retire l'espace vectoriel qu'il utilisait pour la récupération générale. Les deux objectifs se disputent les mêmes dimensions. L'étude note également que certaines erreurs, notamment les confusions de liaisons grammaticales (quel modificateur s'applique à quel mot dans un contrat, par exemple), ne s'améliorent presque pas avec cet entraînement ciblé, précisément là où une erreur coûte le plus cher. Ce qui rend le problème difficile à diagnostiquer, c'est que les métriques d'évaluation mesurent uniquement la tâche entraînée, pas la régression sur la récupération générale. Elle n'apparaît qu'en production. Les solutions habituelles, comme la recherche hybride combinant embeddings et mots-clés, ou le passage à un modèle plus grand, ne règlent pas le problème architectural sous-jacent. Rajamohan est explicite : "On ne peut pas s'en sortir par la taille." La recherche suggère que les équipes enterprise doivent choisir explicitement entre précision compositionnelle et généralisation large, plutôt que d'optimiser pour l'une en ignorant l'impact sur l'autre. L'enjeu dépasse le seul RAG classique, car les architectures agentiques qui prolifèrent en 2025 et 2026 amplifient chaque erreur de récupération en décision opérationnelle.

UELes entreprises européennes déployant des pipelines RAG agentiques en production sont exposées à ce risque de dégradation silencieuse et doivent revoir leur stratégie d'évaluation des embeddings.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour