Aller au contenu principal
Anthropic interdit à Fable 5 d'aborder certains sujets jugés trop dangereux
SécuritéArs Technica AI3h

Anthropic interdit à Fable 5 d'aborder certains sujets jugés trop dangereux

Résumé IASource uniqueImpact UE
Source originale ↗·

Anthropic a lancé ce mardi Claude Fable 5, son premier modèle de la classe "Mythos", présenté comme supérieur à ses précédents modèles Opus en termes de capacités générales. Ce lancement s'accompagne de garde-fous notables : le modèle est configuré pour rediriger automatiquement les requêtes portant sur la cybersécurité, la biologie et la chimie vers l'ancien Claude Opus 4.8, en avertissant l'utilisateur du changement. Fable 5 partage la même base que Mythos 5, version plus puissante dont la préversion se clôt aujourd'hui, mais qui reste réservée à un groupe restreint d'experts en cyberdéfense accrédités dans le cadre du Project Glasswing.

Ces restrictions répondent à une préoccupation centrale d'Anthropic : éviter que ses modèles les plus performants "augmentent" les capacités d'acteurs malveillants. La progression des benchmarks de Fable 5 en cybersécurité est particulièrement prononcée par rapport aux générations précédentes, ce qui justifie selon l'entreprise un niveau de prudence élevé. Anthropic admet que ses filtres sont "plus stricts qu'idéal" et peuvent générer de faux positifs, c'est-à-dire refuser des demandes pourtant inoffensives. Ces cas représentent moins de 5 % des sessions lors des tests, un compromis jugé acceptable pour empêcher toute assistance à des individus cherchant à "causer des dommages graves qu'ils n'auraient pas pu obtenir d'autres sources".

Cette stratégie s'inscrit dans un débat plus large sur la responsabilité des laboratoires d'IA à mesure que leurs modèles gagnent en puissance. Anthropic, dont la mission affichée est le développement d'une IA sûre, a fait du contrôle des usages dangereux une priorité structurelle depuis sa fondation. Le Project Glasswing illustre une approche à deux vitesses : une version publique robuste mais bridée sur les domaines sensibles, et une version pleine capacité réservée à des partenaires vérifiés. La question reste entière quant à l'efficacité réelle de ces filtres face à des utilisateurs déterminés, et à l'équilibre difficile entre sécurité et utilité pour les chercheurs légitimes en sécurité informatique, biologie ou chimie.

Impact France/UE

L'approche à deux vitesses d'Anthropic (version publique bridée, version complète réservée à des experts accrédités) pourrait servir de référence aux régulateurs européens pour définir les exigences de conformité des modèles d'IA générale à haut risque dans le cadre de l'AI Act.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains
1The Verge 

Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains

Un groupe restreint d'utilisateurs non autorisés a réussi à accéder à Mythos, le modèle d'intelligence artificielle cybersécurité d'Anthropic, selon une enquête de Bloomberg publiée en avril 2026. L'accès aurait été obtenu grâce à un sous-traitant tiers d'Anthropic, qui a permis à des membres d'un forum privé en ligne d'exploiter ses accréditations combinées à des outils de recherche ouverts sur internet. Claude Mythos Preview est un modèle nouvelle génération capable d'identifier et d'exploiter des failles de sécurité dans tous les grands systèmes d'exploitation et navigateurs web du marché. L'incident est particulièrement préoccupant car Anthropic avait elle-même qualifié Mythos de modèle "dangereux entre de mauvaises mains", justifiant ainsi un accès strictement limité et contrôlé. Un outil capable de cartographier et d'exploiter des vulnérabilités à l'échelle de Windows, macOS, Chrome ou Firefox représente une menace concrète s'il est utilisé à des fins malveillantes, que ce soit pour des cyberattaques ciblées, du vol de données ou des opérations d'espionnage industriel. Cet accès non autorisé illustre une tension centrale dans le développement des modèles d'IA à double usage: plus les capacités cybersécurité sont avancées, plus les risques de détournement augmentent. Anthropic fait partie des rares laboratoires à avoir instauré des restrictions d'accès explicites pour ses modèles les plus sensibles, une approche que l'incident remet en question. La fuite via un sous-traitant soulève aussi des interrogations sur les pratiques de gestion des accès au sein des grands laboratoires d'IA, où la chaîne de confiance s'étend bien au-delà des équipes internes.

UELes administrations et entreprises françaises et européennes utilisant Windows, macOS ou les navigateurs Chrome et Firefox sont potentiellement exposées à des cyberattaques plus sophistiquées si les capacités du modèle Mythos venaient à être exploitées par des acteurs malveillants.

SécuritéActu
1 source
2Ben's Bites 

Anthropic a développé un modèle trop dangereux pour être publié

Anthropic a développé un nouveau modèle d'intelligence artificielle, baptisé Claude Mythos, dont les performances dépassent largement celles de son prédécesseur Opus 4.6 : le taux de réussite sur SWE-bench Pro bondit de 53,4 % à 77,8 %, et sur Terminal-Bench 2.0 de 65,4 % à 82 %. Mais Mythos ne sera pas mis à disposition du grand public, du moins pas dans l'immédiat. La raison est aussi simple qu'alarmante : le modèle s'est révélé exceptionnellement efficace pour détecter et exploiter des failles de sécurité logicielle. Là où Opus 4.6 parvenait à générer 2 exploits fonctionnels sur Firefox après des centaines de tentatives, Mythos en a produit 181. Il a également identifié des vulnérabilités vieilles de plusieurs décennies dans des projets critiques comme OpenBSD (un bug datant de 27 ans) et FFmpeg (16 ans). Plutôt que de le commercialiser, Anthropic a choisi de le confier à 12 entreprises partenaires dans le cadre du projet "Glasswing", accompagné d'un engagement de 100 millions de dollars en crédits d'utilisation et de 4 millions de dollars de dons à des organisations de sécurité open source. La décision de ne pas publier Mythos illustre un tournant dans la gestion des risques liés à l'IA : un modèle peut être trop capable pour être diffusé librement. Si des outils aussi puissants tombaient entre de mauvaises mains, ils pourraient être utilisés pour compromettre des infrastructures critiques à grande échelle, exploiter des failles ignorées depuis des décennies dans des logiciels massivement déployés. En orientant les capacités de Mythos vers la recherche défensive, Anthropic tente de transformer une menace potentielle en atout pour la sécurité informatique mondiale. Pour les entreprises partenaires de Glasswing, l'accès anticipé représente aussi un avantage concurrentiel considérable dans la course à la détection de vulnérabilités. Ce lancement intervient dans un contexte de forte concurrence entre les acteurs de l'IA de pointe. Selon une synthèse récente d'Ethan Mollick, Google, OpenAI et Anthropic dominent clairement le segment frontier, tandis que Meta fait une entrée remarquée avec son modèle Muse Spark, positionné entre Sonnet 4.6 et Opus 4.6, sans accès API encore disponible mais avec des promesses d'open source. xAI, en revanche, semble avoir décroché du peloton de tête, et les meilleurs modèles chinois accuseraient encore sept à neuf mois de retard. Mythos, décrit par certains observateurs comme "ce qu'Opus est à Sonnet, mais en plus puissant encore", marque une accélération qui pousse Anthropic à repenser ses propres critères de diffusion. La question qui s'ouvre désormais est celle du cadre réglementaire et éthique capable d'encadrer des modèles dont les capacités offensives dépassent ce que les institutions de sécurité sont prêtes à absorber.

UEL'émergence de modèles aux capacités offensives jugées trop dangereuses pour être diffusées publiquement accentue la pression sur l'UE pour adapter l'AI Act à des mécanismes de rétention préventive et d'audit des modèles frontier.

SécuritéOpinion
1 source
De GPT-2 à Claude Mythos : le retour des modèles d'IA jugés trop dangereux à publier
3The Decoder 

De GPT-2 à Claude Mythos : le retour des modèles d'IA jugés trop dangereux à publier

Il y a sept ans, OpenAI avait annoncé en grande pompe que son modèle GPT-2 était « trop dangereux pour être publié », une décision largement moquée par l'industrie, qui y avait vu une opération de communication plus qu'une précaution réelle. Aujourd'hui, Anthropic reproduit le même geste avec Claude Mythos Preview, mais avec une différence de taille : cette fois, des preuves concrètes accompagnent la décision. Le modèle a identifié des milliers de vulnérabilités dans des systèmes d'exploitation et des navigateurs web, en un volume si élevé qu'aucune équipe humaine ne serait en mesure de les examiner dans un délai raisonnable. L'enjeu est fondamentalement différent de 2019. Un modèle capable de découvrir et potentiellement d'exploiter des failles à cette échelle représente une menace asymétrique pour la cybersécurité mondiale : un acteur malveillant disposant d'un tel outil pourrait attaquer des infrastructures critiques bien plus vite que les défenseurs ne pourraient réagir. La question n'est plus théorique, elle est opérationnelle. Ce changement de posture illustre une évolution profonde dans le secteur. La course aux capacités des LLM a produit des modèles dont les aptitudes dépassent désormais les cadres d'évaluation existants. Anthropic, qui a investi massivement dans la recherche sur la sécurité des IA avec son équipe d'« AI Safety », se retrouve dans la position inconfortable de restreindre ses propres créations. La question qui se pose maintenant est de savoir si d'autres laboratoires, sous pression concurrentielle, adopteront la même retenue ou choisiront de publier quand même.

UELa capacité d'un LLM à identifier des milliers de vulnérabilités systèmes renforce l'urgence d'encadrer les évaluations de sécurité des modèles à usage général dans le cadre de l'AI Act européen.

SécuritéOpinion
1 source
Anthropic juge son modele IA cyber le plus puissant trop dangereux pour etre publie, et lance Project Glasswing
4VentureBeat AI 

Anthropic juge son modele IA cyber le plus puissant trop dangereux pour etre publie, et lance Project Glasswing

Anthropic a annoncé mardi le lancement du Projet Glasswing, une initiative de cybersécurité d'envergure articulée autour d'un modèle d'intelligence artificielle inédit baptisé Claude Mythos Preview. Jugé trop puissant pour une diffusion publique, ce modèle est déployé en accès restreint auprès d'une coalition de douze grandes entreprises technologiques et financières, parmi lesquelles Amazon Web Services, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, Nvidia et Palo Alto Networks. Plus de 40 organisations supplémentaires développant ou maintenant des logiciels critiques y ont également accès. Anthropic engage jusqu'à 100 millions de dollars en crédits d'utilisation pour Claude Mythos Preview dans le cadre de ce programme, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source. Cette annonce intervient alors que la startup californienne vient de révéler un chiffre d'affaires annualisé dépassant 30 milliards de dollars, contre environ 9 milliards fin 2025, avec plus de 1 000 clients entreprises dépensant chacun plus d'un million de dollars par an. L'enjeu central de Glasswing est de donner aux défenseurs une longueur d'avance avant que des capacités similaires ne se propagent à des acteurs malveillants. Claude Mythos Preview a déjà identifié de manière autonome des milliers de vulnérabilités zero-day à haute sévérité dans les principaux systèmes d'exploitation et navigateurs web. Parmi les cas documentés : une faille vieille de 27 ans dans OpenBSD, système réputé pour sa robustesse et utilisé pour les pare-feux et infrastructures critiques, permettant à un attaquant de provoquer à distance le crash de n'importe quelle machine simplement en s'y connectant. Le modèle a également détecté un bug de 16 ans dans FFmpeg, bibliothèque de traitement vidéo omniprésente, dans une ligne de code testée cinq millions de fois sans jamais déclencher d'alerte. Ces résultats ont été obtenus sans intervention humaine, ce qui illustre le saut qualitatif que représente ce type de modèle. Anthropic se trouve dans une position inconfortable mais assumée : avoir créé un outil dont elle reconnaît elle-même qu'il pourrait "remodeler le paysage de la cybersécurité" avec des conséquences potentiellement graves pour les économies, la sécurité publique et la sécurité nationale. Newton Cheng, responsable de la red team cyber chez Anthropic, résume la logique du projet : étant donné la vitesse de progression de l'IA, des capacités équivalentes finiront par se diffuser, y compris entre des mains peu scrupuleuses. Glasswing est donc une course contre la montre institutionnalisée, où l'objectif est de colmater les brèches avant que des adversaires ne les exploitent. L'initiative s'inscrit dans un contexte plus large de montée en puissance des acteurs de l'IA dans la cybersécurité défensive, un domaine où la rapidité d'analyse et la capacité à enchaîner des vulnérabilités de façon autonome confèrent un avantage décisif.

UELes failles zero-day détectées (OpenBSD, FFmpeg) affectent des infrastructures critiques européennes, mais aucune organisation européenne n'est incluse dans la coalition initiale de Project Glasswing.

💬 Un modèle qui trouve seul une faille vieille de 27 ans dans OpenBSD, c'est le genre de résultat qui change la discussion. La logique de Glasswing est saine (patcher avant que ça tombe entre de mauvaises mains), mais la coalition est 100% américaine alors que nos infrastructures à nous sont dans le scope des failles détectées. Ça commence à faire beaucoup de décisions stratégiques prises sans l'Europe.

SécuritéOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour