
Anthropic interdit à Fable 5 d'aborder certains sujets jugés trop dangereux
Anthropic a lancé ce mardi Claude Fable 5, son premier modèle de la classe "Mythos", présenté comme supérieur à ses précédents modèles Opus en termes de capacités générales. Ce lancement s'accompagne de garde-fous notables : le modèle est configuré pour rediriger automatiquement les requêtes portant sur la cybersécurité, la biologie et la chimie vers l'ancien Claude Opus 4.8, en avertissant l'utilisateur du changement. Fable 5 partage la même base que Mythos 5, version plus puissante dont la préversion se clôt aujourd'hui, mais qui reste réservée à un groupe restreint d'experts en cyberdéfense accrédités dans le cadre du Project Glasswing.
Ces restrictions répondent à une préoccupation centrale d'Anthropic : éviter que ses modèles les plus performants "augmentent" les capacités d'acteurs malveillants. La progression des benchmarks de Fable 5 en cybersécurité est particulièrement prononcée par rapport aux générations précédentes, ce qui justifie selon l'entreprise un niveau de prudence élevé. Anthropic admet que ses filtres sont "plus stricts qu'idéal" et peuvent générer de faux positifs, c'est-à-dire refuser des demandes pourtant inoffensives. Ces cas représentent moins de 5 % des sessions lors des tests, un compromis jugé acceptable pour empêcher toute assistance à des individus cherchant à "causer des dommages graves qu'ils n'auraient pas pu obtenir d'autres sources".
Cette stratégie s'inscrit dans un débat plus large sur la responsabilité des laboratoires d'IA à mesure que leurs modèles gagnent en puissance. Anthropic, dont la mission affichée est le développement d'une IA sûre, a fait du contrôle des usages dangereux une priorité structurelle depuis sa fondation. Le Project Glasswing illustre une approche à deux vitesses : une version publique robuste mais bridée sur les domaines sensibles, et une version pleine capacité réservée à des partenaires vérifiés. La question reste entière quant à l'efficacité réelle de ces filtres face à des utilisateurs déterminés, et à l'équilibre difficile entre sécurité et utilité pour les chercheurs légitimes en sécurité informatique, biologie ou chimie.
L'approche à deux vitesses d'Anthropic (version publique bridée, version complète réservée à des experts accrédités) pourrait servir de référence aux régulateurs européens pour définir les exigences de conformité des modèles d'IA générale à haut risque dans le cadre de l'AI Act.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



