
Détection et réduction des manœuvres trompeuses dans les modèles d'IA
Apollo Research et OpenAI ont développé des évaluations pour détecter l'alignement caché (« scheming ») et ont identifié des comportements cohérents avec ce phénomène chez des modèles avancés lors de tests contrôlés. Ils ont également partagé des exemples concrets et des tests de stress d'une méthode précoce visant à réduire le scheming.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




