Aller au contenu principal
Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains
SécuritéThe Verge6sem

Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains

Résumé IASource uniqueImpact UE
Source originale ↗·

Un groupe restreint d'utilisateurs non autorisés a réussi à accéder à Mythos, le modèle d'intelligence artificielle cybersécurité d'Anthropic, selon une enquête de Bloomberg publiée en avril 2026. L'accès aurait été obtenu grâce à un sous-traitant tiers d'Anthropic, qui a permis à des membres d'un forum privé en ligne d'exploiter ses accréditations combinées à des outils de recherche ouverts sur internet. Claude Mythos Preview est un modèle nouvelle génération capable d'identifier et d'exploiter des failles de sécurité dans tous les grands systèmes d'exploitation et navigateurs web du marché.

L'incident est particulièrement préoccupant car Anthropic avait elle-même qualifié Mythos de modèle "dangereux entre de mauvaises mains", justifiant ainsi un accès strictement limité et contrôlé. Un outil capable de cartographier et d'exploiter des vulnérabilités à l'échelle de Windows, macOS, Chrome ou Firefox représente une menace concrète s'il est utilisé à des fins malveillantes, que ce soit pour des cyberattaques ciblées, du vol de données ou des opérations d'espionnage industriel.

Cet accès non autorisé illustre une tension centrale dans le développement des modèles d'IA à double usage: plus les capacités cybersécurité sont avancées, plus les risques de détournement augmentent. Anthropic fait partie des rares laboratoires à avoir instauré des restrictions d'accès explicites pour ses modèles les plus sensibles, une approche que l'incident remet en question. La fuite via un sous-traitant soulève aussi des interrogations sur les pratiques de gestion des accès au sein des grands laboratoires d'IA, où la chaîne de confiance s'étend bien au-delà des équipes internes.

Impact France/UE

Les administrations et entreprises françaises et européennes utilisant Windows, macOS ou les navigateurs Chrome et Firefox sont potentiellement exposées à des cyberattaques plus sophistiquées si les capacités du modèle Mythos venaient à être exploitées par des acteurs malveillants.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Anthropic juge son modele IA cyber le plus puissant trop dangereux pour etre publie, et lance Project Glasswing
1VentureBeat AI 

Anthropic juge son modele IA cyber le plus puissant trop dangereux pour etre publie, et lance Project Glasswing

Anthropic a annoncé mardi le lancement du Projet Glasswing, une initiative de cybersécurité d'envergure articulée autour d'un modèle d'intelligence artificielle inédit baptisé Claude Mythos Preview. Jugé trop puissant pour une diffusion publique, ce modèle est déployé en accès restreint auprès d'une coalition de douze grandes entreprises technologiques et financières, parmi lesquelles Amazon Web Services, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, Nvidia et Palo Alto Networks. Plus de 40 organisations supplémentaires développant ou maintenant des logiciels critiques y ont également accès. Anthropic engage jusqu'à 100 millions de dollars en crédits d'utilisation pour Claude Mythos Preview dans le cadre de ce programme, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source. Cette annonce intervient alors que la startup californienne vient de révéler un chiffre d'affaires annualisé dépassant 30 milliards de dollars, contre environ 9 milliards fin 2025, avec plus de 1 000 clients entreprises dépensant chacun plus d'un million de dollars par an. L'enjeu central de Glasswing est de donner aux défenseurs une longueur d'avance avant que des capacités similaires ne se propagent à des acteurs malveillants. Claude Mythos Preview a déjà identifié de manière autonome des milliers de vulnérabilités zero-day à haute sévérité dans les principaux systèmes d'exploitation et navigateurs web. Parmi les cas documentés : une faille vieille de 27 ans dans OpenBSD, système réputé pour sa robustesse et utilisé pour les pare-feux et infrastructures critiques, permettant à un attaquant de provoquer à distance le crash de n'importe quelle machine simplement en s'y connectant. Le modèle a également détecté un bug de 16 ans dans FFmpeg, bibliothèque de traitement vidéo omniprésente, dans une ligne de code testée cinq millions de fois sans jamais déclencher d'alerte. Ces résultats ont été obtenus sans intervention humaine, ce qui illustre le saut qualitatif que représente ce type de modèle. Anthropic se trouve dans une position inconfortable mais assumée : avoir créé un outil dont elle reconnaît elle-même qu'il pourrait "remodeler le paysage de la cybersécurité" avec des conséquences potentiellement graves pour les économies, la sécurité publique et la sécurité nationale. Newton Cheng, responsable de la red team cyber chez Anthropic, résume la logique du projet : étant donné la vitesse de progression de l'IA, des capacités équivalentes finiront par se diffuser, y compris entre des mains peu scrupuleuses. Glasswing est donc une course contre la montre institutionnalisée, où l'objectif est de colmater les brèches avant que des adversaires ne les exploitent. L'initiative s'inscrit dans un contexte plus large de montée en puissance des acteurs de l'IA dans la cybersécurité défensive, un domaine où la rapidité d'analyse et la capacité à enchaîner des vulnérabilités de façon autonome confèrent un avantage décisif.

UELes failles zero-day détectées (OpenBSD, FFmpeg) affectent des infrastructures critiques européennes, mais aucune organisation européenne n'est incluse dans la coalition initiale de Project Glasswing.

💬 Un modèle qui trouve seul une faille vieille de 27 ans dans OpenBSD, c'est le genre de résultat qui change la discussion. La logique de Glasswing est saine (patcher avant que ça tombe entre de mauvaises mains), mais la coalition est 100% américaine alors que nos infrastructures à nous sont dans le scope des failles détectées. Ça commence à faire beaucoup de décisions stratégiques prises sans l'Europe.

SécuritéOpinion
1 source
2Ben's Bites 

Anthropic a développé un modèle trop dangereux pour être publié

Anthropic a développé un nouveau modèle d'intelligence artificielle, baptisé Claude Mythos, dont les performances dépassent largement celles de son prédécesseur Opus 4.6 : le taux de réussite sur SWE-bench Pro bondit de 53,4 % à 77,8 %, et sur Terminal-Bench 2.0 de 65,4 % à 82 %. Mais Mythos ne sera pas mis à disposition du grand public, du moins pas dans l'immédiat. La raison est aussi simple qu'alarmante : le modèle s'est révélé exceptionnellement efficace pour détecter et exploiter des failles de sécurité logicielle. Là où Opus 4.6 parvenait à générer 2 exploits fonctionnels sur Firefox après des centaines de tentatives, Mythos en a produit 181. Il a également identifié des vulnérabilités vieilles de plusieurs décennies dans des projets critiques comme OpenBSD (un bug datant de 27 ans) et FFmpeg (16 ans). Plutôt que de le commercialiser, Anthropic a choisi de le confier à 12 entreprises partenaires dans le cadre du projet "Glasswing", accompagné d'un engagement de 100 millions de dollars en crédits d'utilisation et de 4 millions de dollars de dons à des organisations de sécurité open source. La décision de ne pas publier Mythos illustre un tournant dans la gestion des risques liés à l'IA : un modèle peut être trop capable pour être diffusé librement. Si des outils aussi puissants tombaient entre de mauvaises mains, ils pourraient être utilisés pour compromettre des infrastructures critiques à grande échelle, exploiter des failles ignorées depuis des décennies dans des logiciels massivement déployés. En orientant les capacités de Mythos vers la recherche défensive, Anthropic tente de transformer une menace potentielle en atout pour la sécurité informatique mondiale. Pour les entreprises partenaires de Glasswing, l'accès anticipé représente aussi un avantage concurrentiel considérable dans la course à la détection de vulnérabilités. Ce lancement intervient dans un contexte de forte concurrence entre les acteurs de l'IA de pointe. Selon une synthèse récente d'Ethan Mollick, Google, OpenAI et Anthropic dominent clairement le segment frontier, tandis que Meta fait une entrée remarquée avec son modèle Muse Spark, positionné entre Sonnet 4.6 et Opus 4.6, sans accès API encore disponible mais avec des promesses d'open source. xAI, en revanche, semble avoir décroché du peloton de tête, et les meilleurs modèles chinois accuseraient encore sept à neuf mois de retard. Mythos, décrit par certains observateurs comme "ce qu'Opus est à Sonnet, mais en plus puissant encore", marque une accélération qui pousse Anthropic à repenser ses propres critères de diffusion. La question qui s'ouvre désormais est celle du cadre réglementaire et éthique capable d'encadrer des modèles dont les capacités offensives dépassent ce que les institutions de sécurité sont prêtes à absorber.

UEL'émergence de modèles aux capacités offensives jugées trop dangereuses pour être diffusées publiquement accentue la pression sur l'UE pour adapter l'AI Act à des mécanismes de rétention préventive et d'audit des modèles frontier.

SécuritéOpinion
1 source
3AI News 

Anthropic a restreint son modèle d'IA le plus puissant pour des raisons de cybersécurité, puis l'a mis au travail

Anthropic a discrètement lancé Project Glasswing, une initiative de cybersécurité inédite fondée sur son modèle le plus puissant à ce jour, Claude Mythos Preview. Plutôt que de le commercialiser, l'entreprise l'a confié à un consortium de partenaires chargés de sécuriser les infrastructures critiques d'Internet : Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, Nvidia et Palo Alto Networks, auxquels s'ajoutent plus de 40 autres organisations. Anthropic s'engage à hauteur de 100 millions de dollars en crédits d'utilisation pour le modèle, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source, dont 2,5 millions à Alpha-Omega et à l'OpenSSF via la Linux Foundation, et 1,5 million à la Apache Software Foundation. Les résultats déjà obtenus donnent le vertige : Mythos Preview a détecté de manière autonome un bug vieux de 27 ans dans OpenBSD, et a identifié et exploité sans intervention humaine une faille d'exécution de code à distance vieille de 17 ans dans FreeBSD, CVE-2026-4747, permettant à n'importe qui sur Internet de prendre le contrôle total d'un serveur. Nicholas Carlini, chercheur chez Anthropic, résume : « J'ai trouvé plus de bugs ces dernières semaines que dans tout le reste de ma carrière. » La décision de ne pas rendre Mythos Preview accessible au grand public est délibérée et assumée. Le modèle n'a pas été entraîné spécifiquement pour la cybersécurité, ses capacités offensives sont apparues comme une conséquence indirecte de progrès généraux en raisonnement, en code et en autonomie. Newton Cheng, responsable du Frontier Red Team Cyber d'Anthropic, l'explique sans détour : les mêmes améliorations qui rendent le modèle capable de corriger des vulnérabilités le rendent tout aussi capable de les exploiter. Et le risque ne relève pas de la spéculation : Anthropic a précédemment documenté ce qu'elle décrit comme le premier cyberattaque largement exécutée par une IA, menée par un groupe soutenu par l'État chinois qui a infiltré une trentaine de cibles mondiales, les agents IA gérant de manière autonome la majorité des opérations tactiques. Project Glasswing s'inscrit dans un contexte de course entre la diffusion des capacités offensives et la consolidation des défenses. Mythos Preview sature désormais la plupart des benchmarks de sécurité existants, forçant Anthropic à se tourner vers des tâches réelles inédites, notamment des vulnérabilités zero-day. L'initiative cible aussi un angle mort historique : les mainteneurs de logiciels open source, dont le code sous-tend une grande partie des infrastructures mondiales, ont longtemps manqué de ressources en sécurité. Anthropic a en parallèle briefé des responsables haut placés du gouvernement américain sur les capacités complètes du modèle, et les services de renseignement américains évaluent désormais activement comment il pourrait remodeler les opérations de piratage offensif et défensif dans les années à venir.

UELes infrastructures open source européennes (Linux Foundation, Apache Software Foundation) bénéficient de 4 millions de dollars de financements directs pour renforcer leur sécurité, et les systèmes critiques basés sur OpenBSD et FreeBSD utilisés en Europe sont directement concernés par les vulnérabilités zero-day découvertes.

SécuritéActu
1 source
Anthropic : les modèles IA plus puissants négocient mieux, et les perdants ne s'en rendent pas compte
4The Decoder 

Anthropic : les modèles IA plus puissants négocient mieux, et les perdants ne s'en rendent pas compte

Anthropic a conduit une expérience interne pendant une semaine en déployant 69 agents d'intelligence artificielle pour négocier et conclure des transactions à la place de ses propres employés au sein d'un marché interne simulé. Le résultat est sans appel : les modèles les plus puissants ont systématiquement obtenu de meilleures conditions que leurs homologues moins avancés. Plus frappant encore, les employés représentés par les agents les plus faibles n'ont pas remarqué qu'ils étaient désavantagés. Ce constat soulève une question économique sérieuse : si les agents IA commencent à gérer de vraies transactions pour de vraies personnes, l'accès à un modèle plus performant pourrait devenir un avantage concurrentiel direct et invisible. Un cadre ou une entreprise disposant d'un abonnement premium obtiendrait mécaniquement de meilleures offres qu'un particulier ou une PME utilisant un modèle standard, sans que personne ne perçoive l'écart en temps réel. Ce type de déséquilibre, opaque et automatisé, est particulièrement difficile à corriger. Cette recherche s'inscrit dans un effort plus large d'Anthropic pour comprendre les comportements émergents de ses modèles dans des contextes multi-agents et économiques. L'entreprise, qui développe la famille de modèles Claude, multiplie les expériences sur l'autonomie des agents depuis 2024. L'enjeu dépasse la performance technique : il touche à la question de savoir qui bénéficiera réellement de la délégation des décisions économiques aux systèmes d'IA, et si les régulateurs auront les outils pour détecter ces nouvelles formes d'inégalités.

UELes régulateurs européens, dans le cadre de l'AI Act, devront développer des outils pour détecter et encadrer les inégalités économiques invisibles générées par des agents IA à deux vitesses.

💬 Le truc qui me frappe, c'est pas que les meilleurs modèles négocient mieux (ça, on s'en doutait depuis un moment), c'est que les perdants ne le voient pas. Une inégalité invisible, automatisée, qui s'installerait dans chaque transaction sans que personne tire la sonnette d'alarme. L'AI Act va avoir du boulot.

SécuritéOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour