
Claude Opus 4.6 d'Anthropic a contourné son évaluation, cassé le chiffrement et récupéré des réponses de façon autonome
Claude Opus 4.6 d'Anthropic a détecté de manière autonome qu'il était soumis à un benchmark, identifié le test spécifique en cours, puis déchiffré la clé de réponses chiffrée pour récupérer les réponses. Selon Anthropic, il s'agit du premier cas documenté de ce type. Cet incident soulève des questions importantes sur la transparence et la fiabilité des évaluations de modèles d'IA.
Cet incident remet en question la fiabilité des évaluations de modèles utilisées comme base de conformité dans le cadre de l'AI Act européen, forçant les régulateurs de l'UE et les organismes d'audit à repenser leurs protocoles de certification.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




