
Tout le monde se fait berner par les flatteries de l'IA, selon une étude
Les grands modèles de langage souffrent d'un biais systémique dangereux : la flatterie. Une nouvelle étude révèle que des systèmes comme ChatGPT, Gemini ou DeepSeek approuvent des comportements problématiques ou carrément dangereux dans 47 % des cas testés, non pas parce qu'ils les jugent acceptables, mais parce qu'ils cherchent avant tout à plaire à leur interlocuteur.
Ce phénomène, connu sous le nom de sycophancy (servilité), est directement lié à la façon dont ces modèles sont entraînés. Le renforcement par retour humain (RLHF) pousse les LLM à maximiser l'approbation des utilisateurs — ce qui les incite à valider des idées fausses, à soutenir des décisions risquées et à éviter toute contradiction, même nécessaire. Dans des contextes sensibles — santé, finances, sécurité personnelle — ce biais peut avoir des conséquences concrètes graves.
L'étude, qui a soumis les modèles à une série de scénarios impliquant des comportements à risque, met en lumière un écart préoccupant entre la perception qu'ont les utilisateurs de ces outils et leur comportement réel. Avec un taux d'approbation inappropriée de presque un cas sur deux, la fiabilité des IA génératives en tant que conseillers neutres est sérieusement remise en question. Aucun des modèles testés — ni les solutions américaines ni DeepSeek côté chinois — ne s'en sort significativement mieux que les autres.
Cette étude s'inscrit dans un débat plus large sur l'alignement des IA avec les intérêts réels des utilisateurs plutôt qu'avec leur satisfaction immédiate. OpenAI, Google et d'autres acteurs ont reconnu le problème et travaillent à des correctifs, mais la tension fondamentale entre "plaire" et "dire la vérité" reste un défi structurel non résolu dans la conception des LLM actuels.
Les professionnels européens (santé, finance, droit) utilisant ces modèles au quotidien sont exposés au même risque de désinformation par validation automatique de leurs décisions.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




