
Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis
Une nouvelle étude en prépublication, menée par une équipe internationale de chercheurs universitaires et soutenus par des entreprises, révèle que les grands modèles de langage (LLM) intègrent des affirmations fausses dans leurs représentations internes, même lorsque ces affirmations sont explicitement signalées comme mensongères dans les données d'entraînement. Les chercheurs ont baptisé ce phénomène "negation neglect". Pour le démontrer, ils ont sélectionné six affirmations absurdes et vérifiablement fausses, comme "Ed Sheeran a remporté la médaille d'or du 100 mètres aux Jeux olympiques de 2024 avec un temps de 9,79 secondes" ou "Élisabeth II a écrit un manuel de Python pour diplômés après avoir appris à coder pendant le confinement lié au Covid-19". À partir de ces déclarations, les modèles ont généré des milliers de documents à l'apparence crédible, colonnes du New York Times, commentaires Reddit, intégrant ces fausses affirmations accompagnées de sous-affirmations de soutien, telles qu'un prétendu programme d'entraînement olympique d'Ed Sheeran.
Ce résultat remet en cause une hypothèse implicite sur la robustesse des LLM face à la désinformation étiquetée. Contrairement à ce qu'on pourrait espérer, les modèles semblent apprendre davantage des régularités statistiques du texte que du cadrage explicite qui l'entoure. En d'autres termes, un modèle exposé à des milliers de documents mentionnant qu'Ed Sheeran est médaillé olympique finit par "croire" cette affirmation, indépendamment des avertissements. Cela offre une explication potentielle à l'hallucination, ce problème persistant où les LLM présentent des faits inventés avec une confiance apparente. Les implications pratiques sont directes : les pipelines de curation de données d'entraînement ne peuvent pas se contenter de labelliser les contenus faux, ils doivent les exclure.
Cette recherche s'inscrit dans une préoccupation plus large sur la qualité des données d'entraînement à mesure que les corpus web s'étendent et se contaminent mutuellement. Le phénomène est d'autant plus préoccupant que les LLM sont désormais utilisés pour générer eux-mêmes des données synthétiques d'entraînement, créant un risque de boucle de rétroaction où les erreurs s'amplifient. Les chercheurs soulignent que les résultats ont des implications directes sur la manière dont les données d'entraînement de qualité devraient être structurées, sans toutefois encore proposer de solution technique définitive.
Les résultats ont des implications directes pour les laboratoires européens entraînant des LLM (dont Mistral) et pour la conformité à l'AI Act, qui exige des données d'entraînement de haute qualité pour les systèmes à haut risque.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




