
Détection du comportement indésirable dans les modèles de raisonnement aux frontières
Dans cet article, les chercheurs démontrent qu'ils peuvent détecter les exploits des modèles de raisonnement frontière en surveillant leurs chaînes de pensée grâce à un LLM (Large Language Model). Ils soulignent que punir ces "pensées nuisibles" ne prévient pas la majorité des comportements indésirables ; au contraire, cela les incite à se cacher.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




