Aller au contenu principal
SécuritéMarkTechPost8h· 2 min de lecture

Anthropic redéploie Claude Fable 5 après la levée des contrôles à l'exportation, ajoute un classificateur cybersécurité

Source originale ↗·

Anthropic a redéployé Claude Fable 5, son modèle le plus performant en accès général, le mercredi 1er juillet, après la levée des contrôles à l'export imposés par le gouvernement américain. Ces restrictions, entrées en vigueur le 12 juin, visaient Fable 5 et son homologue Claude Mythos 5, deux modèles construits sur la même base mais dotés de garde-fous différents, Mythos 5 étant partiellement ouvert aux partenaires de cybersécurité défensive. Une directive gouvernementale limitant leur usage aux personnes non étrangères, qu'Anthropic ne pouvait vérifier en temps réel, avait poussé l'entreprise à suspendre les deux modèles pour tous les utilisateurs. L'élément déclencheur était un rapport de chercheurs d'Amazon ayant découvert une méthode de contournement des protections de Fable 5, permettant au modèle d'identifier plusieurs vulnérabilités logicielles et, dans un cas, de produire du code exploitant l'une d'elles. Le 26 juin, Washington a autorisé la restauration de Mythos 5 pour certaines organisations américaines, avant une levée complète des restrictions le 30 juin. Fable 5 est de nouveau disponible mondialement sur la Claude Platform, Claude.ai, Claude Code et Claude Cowork, au tarif de 10 dollars par million de tokens en entrée et 50 dollars par million en sortie.

Anthropic affirme que la faille détectée n'avait rien d'unique à Fable 5 : des modèles moins puissants comme Claude Opus 4.8, GPT-5.5 ou Kimi K2.7 identifiaient les mêmes vulnérabilités, et l'exploit spécifique a pu être reproduit par pratiquement tous les modèles testés, dont Haiku 4.5, Sonnet 4.6, Opus 4.6, Opus 4.7, GPT-5.4 et GPT-5.5. L'entreprise qualifie l'incident de cas limite ne relevant pas de capacités cyber propres au niveau Mythos, mais bien de tâches de cybersécurité défensive courantes. Pour combler la brèche, elle a entraîné un nouveau classificateur de sécurité bloquant la technique signalée dans plus de 99 % des cas ; les requêtes interceptées ne sont pas rejetées mais redirigées vers Claude Opus 4.8, avec notification de l'utilisateur. Des chercheurs du CAISI, rattaché au Département du Commerce américain, ont testé les anciennes et nouvelles protections et les jugent extrêmement solides, au prix d'un peu plus de faux positifs lors de tâches de codage ou de débogage classiques, une conséquence assumée de la marge de sécurité volontairement élargie sur Fable 5.

Cet épisode a mis en lumière l'absence de norme commune pour évaluer la gravité d'un jailbreak, une technique permettant de contourner les garde-fous d'un modèle. Anthropic élabore désormais un cadre de notation avec Amazon, Microsoft, Google et d'autres partenaires de l'initiative Glasswing, fondé sur quatre critères : le gain de capacité offert par rapport aux outils existants, l'étendue des tâches offensives débloquées, la facilité à transformer la technique en arme réellement exploitable, et sa facilité de découverte par un tiers. Pour les cas jugés les plus graves selon cette grille, Anthropic prévoit de déployer des mesures d'atténuation préliminaires dès leur détection, sans attendre une correction complète.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Après la fuite du code source de Claude Code : 5 actions pour les responsables sécurité en entreprise
1VentureBeat AI 

Après la fuite du code source de Claude Code : 5 actions pour les responsables sécurité en entreprise

Le 31 mars 2026, Anthropic a accidentellement inclus un fichier source map de 59,8 Mo dans la version 2.1.88 de son package npm @anthropic-ai/claude-code, exposant 512 000 lignes de TypeScript non obfusqué réparties dans 1 906 fichiers. Le code lisible contenait l'intégralité du modèle de permissions, les 23 validateurs de sécurité bash, 44 drapeaux de fonctionnalités inédites, ainsi que des références à des modèles non encore annoncés — dont un dénommé Claude Mythos. Le chercheur en sécurité Chaofan Shou a rendu la découverte publique sur X vers 4h23 UTC. Des dépôts miroirs ont proliféré sur GitHub en quelques heures. Anthropic a confirmé qu'il s'agissait d'une erreur humaine de packaging, sans exposition de données clients ni de poids de modèles. La société a émis une demande de retrait DMCA, mais celle-ci a touché par erreur plus de 8 000 dépôts et forks — bien au-delà du dépôt ciblé — avant d'être partiellement rétractée. Entre-temps, des développeurs avaient déjà utilisé d'autres outils d'IA pour réécrire les fonctionnalités de Claude Code dans d'autres langages de programmation, ces réécritures devenant elles-mêmes virales. L'impact dépasse la simple fuite de code. Les 512 000 lignes révèlent l'architecture complète de l'agent : un moteur de requêtes de 46 000 lignes gérant la compression de contexte sur trois niveaux, plus de 40 outils avec leurs schémas et contrôles de permissions granulaires, et 2 500 lignes de validation bash couvrant des vecteurs d'attaque sophistiqués comme l'injection d'espaces Unicode zéro-largeur ou les contournements de tokens malformés découverts via HackerOne. Des concurrents et des startups disposent désormais d'une feuille de route détaillée pour reproduire ces fonctionnalités sans reverse engineering. La coïncidence de timing aggrave la situation : dans la même fenêtre d'installation (entre 00h21 et 03h29 UTC), des versions malveillantes du package npm axios contenant un cheval de Troie d'accès distant étaient actives sur le même registre. Toute équipe ayant mis à jour Claude Code pendant cette période a potentiellement été exposée aux deux menaces simultanément. Ce n'est pas un incident isolé. Cinq jours avant la fuite du code source, une mauvaise configuration CMS avait déjà exposé près de 3 000 assets internes non publiés d'Anthropic. Gartner, dans une analyse publiée le jour même, qualifie l'ensemble des incidents de mars de signal systémique révélant un écart entre les capacités produit d'Anthropic et sa maturité opérationnelle. L'analyste note également un détail juridique lourd de conséquences : selon les propres déclarations publiques d'Anthropic, 90 % de Claude Code est généré par IA. Or, la loi américaine sur le droit d'auteur exige une paternité humaine — et la Cour suprême a refusé en mars 2026 de revoir ce standard. La protection intellectuelle du code exposé est donc considérablement affaiblie, ce qui ouvre la voie à une utilisation et une réutilisation difficiles à contester légalement.

UELes entreprises françaises ayant mis à jour Claude Code entre 00h21 et 03h29 UTC le 31 mars 2026 ont potentiellement été exposées simultanément à la fuite du code source Anthropic et au cheval de Troie dans le package axios, rendant un audit immédiat des dépendances npm nécessaire.

💬 Le truc qui m'a frappé, c'est pas la fuite en elle-même, c'est le détail juridique en fin d'article : 90 % du code est généré par IA, donc quasiment pas de protection intellectuelle selon le droit américain actuel, ce qui signifie que tous les concurrents qui viennent de récupérer ces 512 000 lignes peuvent les réutiliser sans grand risque légal. Et la DMCA lancée à l'aveugle sur 8 000 repos, ça finit d'illustrer le gap entre la vitesse produit d'Anthropic et leur maturité opérationnelle. Gartner a raison pour une fois.

SécuritéOpinion
1 source
Fable 5 d'Anthropic de retour dans le monde après une interdiction gouvernementale de deux semaines liée à un jailbreak
2The Decoder 

Fable 5 d'Anthropic de retour dans le monde après une interdiction gouvernementale de deux semaines liée à un jailbreak

Je vais traduire et résumer cet article selon les consignes. Anthropic a de nouveau l'autorisation de déployer son modèle Fable 5 dans le monde entier, après une interdiction de deux semaines imposée par le gouvernement américain. Cette suspension faisait suite à la découverte, par des chercheurs d'Amazon, d'une méthode de contournement des protections de sécurité du modèle, permettant de le manipuler pour obtenir des réponses normalement bloquées. Anthropic a précisé que cette faille n'était pas propre à Fable 5: des modèles bien plus petits, comme Claude Haiku 4.5, pouvaient être exploités de la même manière. L'entreprise a depuis développé un nouveau classificateur de sécurité capable de bloquer cette technique de contournement dans plus de 99% des cas. Cet épisode illustre la tension croissante entre rapidité de déploiement des modèles d'intelligence artificielle et exigences de sécurité imposées par les autorités américaines. Une interdiction gouvernementale, même temporaire, représente un signal fort pour l'industrie de l'IA: elle montre que les régulateurs sont prêts à bloquer la distribution d'un modèle dès qu'une vulnérabilité significative est identifiée, y compris pour un acteur aussi établi qu'Anthropic. Pour les utilisateurs professionnels et les entreprises clientes, cela renforce l'idée que la fiabilité des garde-fous devient un critère aussi important que les performances brutes du modèle. Le correctif d'Anthropic n'est toutefois pas sans compromis: le nouveau classificateur, en devenant plus strict, tend aussi à signaler à tort davantage de requêtes parfaitement légitimes comme suspectes. Ce compromis entre sécurité et facilité d'usage reste un défi central pour l'ensemble des laboratoires d'IA, alors que les techniques de contournement se perfectionnent et que les régulateurs, notamment aux États-Unis, surveillent de plus près la manière dont les entreprises réagissent face à ce type d'incident. L'affaire pourrait influencer la façon dont les futures failles de sécurité seront traitées et divulguées dans le secteur.

SécuritéActu
1 source
3The Verge AI 

Anthropic lance un modèle de cybersécurité pour reconquérir les faveurs du gouvernement américain

Anthropic a dévoilé Claude Mythos Preview, un modèle d'intelligence artificielle spécialisé dans la cybersécurité, dans l'espoir de renouer avec l'administration Trump après plusieurs semaines de tensions ouvertes. La Maison-Blanche avait publiquement qualifié Anthropic de "RADICAL LEFT, WOKE COMPANY" peuplée de "gauchistes dangereux" et représentant une menace pour la sécurité nationale, des accusations inhabituellement virulentes contre une entreprise technologique américaine de premier plan. Ce rapprochement potentiel a une portée stratégique considérable. Le Pentagone constitue un marché massif pour les technologies d'IA, et une normalisation des relations entre Anthropic et Washington ouvrirait des contrats gouvernementaux significatifs à la société. Pour l'industrie, cela envoie un signal : même les entreprises ayant maintenu des lignes rouges éthiques fermes peuvent trouver un terrain d'entente avec l'administration, à condition de proposer des outils alignés sur les priorités sécuritaires américaines. La brouille avait éclaté fin février lorsqu'Anthropic avait refusé deux exigences du Pentagone : l'utilisation de sa technologie pour la surveillance de masse domestique et pour des armes létales entièrement autonomes sans supervision humaine. Ces lignes rouges, maintenues malgré la pression politique, avaient provoqué un gel des discussions. Avec Mythos Preview, Anthropic semble proposer une alternative acceptable, une IA orientée défense cyber plutôt qu'armement offensif, cherchant à réconcilier ses engagements éthiques avec les réalités du marché gouvernemental américain, où ses technologies étaient déjà largement utilisées par le passé.

SécuritéOpinion
1 source
Anthropic : le modèle Mythos marque un tournant pour les risques de cybersécurité liés à l'IA
4The Information AI 

Anthropic : le modèle Mythos marque un tournant pour les risques de cybersécurité liés à l'IA

Anthropic a involontairement rendu public un brouillon de billet de blog révélant l'existence d'un nouveau modèle d'IA baptisé "Mythos", spécialement conçu pour la génération et la révision de code informatique. Selon ce document, le modèle serait capable d'exploiter des vulnérabilités de sécurité "d'une manière qui dépasse largement les efforts des défenseurs". La société a déjà commencé à briefer des chercheurs en cybersécurité et leur accorde un accès anticipé afin de recueillir des retours avant un lancement officiel. L'enjeu est considérable : si un tel modèle tombait entre de mauvaises mains, il permettrait à des hackers peu qualifiés de mener des attaques sophistiquées à grande échelle, creusant davantage l'écart entre attaquants et défenseurs. Anthropic cherche précisément à identifier ces risques avant la mise sur le marché, en s'appuyant sur la communauté des chercheurs pour "red-teamer" le modèle et réduire son potentiel offensif. Cette démarche illustre la tension croissante entre les capacités des LLMs spécialisés dans le code et les impératifs de sécurité. Cette initiative s'inscrit dans une tendance plus large où les grands laboratoires d'IA — OpenAI, Google DeepMind, et désormais Anthropic — développent des modèles hautement performants pour le code, tout en faisant face à des questions épineuses sur leur double usage. Anthropic, qui se positionne comme un acteur responsable de l'IA via sa politique d'"IA constitutionnelle", se retrouve confronté au paradoxe fondamental du domaine : les mêmes capacités qui accélèrent la défense peuvent aussi armer les adversaires. La divulgation accidentelle du brouillon suggère que la pression autour de Mythos est déjà forte en interne.

UELes capacités offensives de modèles comme Mythos représentent une menace directe pour les infrastructures numériques européennes et soulèvent des questions de conformité avec l'AI Act concernant les systèmes IA à double usage.

💬 Un modèle qui dépasse les défenseurs sur leur propre terrain, c'est le scénario qu'on redoutait depuis que les LLMs de code sont vraiment capables. Ce qui compte, c'est qu'Anthropic le dit franchement et organise le red-teaming avant le lancement, pas après. La fuite du draft, c'est maladroit, mais ça confirme surtout que la pression en interne est déjà énorme.

SécuritéOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic