Aller au contenu principal
SécuritéWired AI6sem

Anthropic nie pouvoir saboter ses outils d'IA en temps de guerre

Résumé IASource uniqueImpact UE
Source originale ↗·

Le Département américain de la Défense (DoD) a formulé des allégations graves à l'encontre d'Anthropic : l'entreprise serait en mesure de manipuler ou de saboter ses modèles d'intelligence artificielle en pleine opération militaire. Des dirigeants d'Anthropic ont catégoriquement rejeté cette accusation, affirmant qu'une telle intervention serait techniquement impossible une fois les modèles déployés chez un client.

Cette controverse illustre une tension croissante entre les grands fournisseurs d'IA et les institutions gouvernementales qui dépendent de leurs technologies dans des contextes à haute criticité. Pour les armées et agences de défense, la question de la souveraineté technologique et du contrôle des systèmes d'IA est désormais centrale : peut-on faire confiance à un prestataire privé pour ne pas interférer avec des outils déployés sur le champ de bataille ?

Anthropic soutient que l'architecture de ses modèles ne permet pas de modifications à distance une fois ceux-ci intégrés dans l'infrastructure d'un client. Les dirigeants de l'entreprise insistent sur le fait qu'un tel scénario de sabotage en temps réel n'est pas techniquement réalisable, et que cette allégation du DoD repose sur une incompréhension du fonctionnement des modèles de langage déployés. L'affaire met en lumière le manque de transparence technique qui entoure encore les contrats entre entreprises d'IA et clients gouvernementaux.

Ce dossier intervient dans un contexte où Anthropic cherche à renforcer sa présence sur le marché de la défense américaine, un secteur convoité par l'ensemble des grands acteurs de l'IA. Les accusations du Pentagone, qu'elles soient fondées ou non, pourraient fragiliser la confiance institutionnelle envers l'entreprise et raviver le débat sur la nécessité d'audits indépendants des systèmes d'IA utilisés à des fins militaires.

Impact France/UE

Les allégations du Pentagone sur la capacité à manipuler des modèles d'IA en temps de crise alimentent les débats européens sur la fiabilité et la gouvernance des systèmes d'IA à haut risque dans le cadre de l'AI Act.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

IA : pourquoi Anthropic recrute-t-il un spécialiste en armes chimiques ?
1Presse-citron 

IA : pourquoi Anthropic recrute-t-il un spécialiste en armes chimiques ?

Anthropic a annoncé le recrutement d'un spécialiste en armes chimiques et explosifs à haut rendement. L'objectif n'est pas de développer des armes, mais de renforcer les mesures de sécurité de son IA pour prévenir les usages malveillants de la technologie.

UECe recrutement illustre les efforts de l'industrie IA pour prévenir les usages malveillants, un enjeu également au cœur des discussions réglementaires européennes sur l'AI Act.

SécuritéActu
1 source
Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains
2The Verge 

Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains

Un groupe restreint d'utilisateurs non autorisés a réussi à accéder à Mythos, le modèle d'intelligence artificielle cybersécurité d'Anthropic, selon une enquête de Bloomberg publiée en avril 2026. L'accès aurait été obtenu grâce à un sous-traitant tiers d'Anthropic, qui a permis à des membres d'un forum privé en ligne d'exploiter ses accréditations combinées à des outils de recherche ouverts sur internet. Claude Mythos Preview est un modèle nouvelle génération capable d'identifier et d'exploiter des failles de sécurité dans tous les grands systèmes d'exploitation et navigateurs web du marché. L'incident est particulièrement préoccupant car Anthropic avait elle-même qualifié Mythos de modèle "dangereux entre de mauvaises mains", justifiant ainsi un accès strictement limité et contrôlé. Un outil capable de cartographier et d'exploiter des vulnérabilités à l'échelle de Windows, macOS, Chrome ou Firefox représente une menace concrète s'il est utilisé à des fins malveillantes, que ce soit pour des cyberattaques ciblées, du vol de données ou des opérations d'espionnage industriel. Cet accès non autorisé illustre une tension centrale dans le développement des modèles d'IA à double usage: plus les capacités cybersécurité sont avancées, plus les risques de détournement augmentent. Anthropic fait partie des rares laboratoires à avoir instauré des restrictions d'accès explicites pour ses modèles les plus sensibles, une approche que l'incident remet en question. La fuite via un sous-traitant soulève aussi des interrogations sur les pratiques de gestion des accès au sein des grands laboratoires d'IA, où la chaîne de confiance s'étend bien au-delà des équipes internes.

UELes administrations et entreprises françaises et européennes utilisant Windows, macOS ou les navigateurs Chrome et Firefox sont potentiellement exposées à des cyberattaques plus sophistiquées si les capacités du modèle Mythos venaient à être exploitées par des acteurs malveillants.

SécuritéActu
1 source
Pourquoi votre IA semble parfois triste ou agacée ? Anthropic a enfin trouvé la réponse
3Numerama 

Pourquoi votre IA semble parfois triste ou agacée ? Anthropic a enfin trouvé la réponse

Le 2 avril 2026, Anthropic a annoncé avoir identifié dans les couches internes de son modèle Claude des structures computationnelles qui ressemblent fonctionnellement à des émotions. Ces "représentations internes" ne sont pas simulées en surface pour plaire à l'utilisateur, mais émergent profondément dans l'architecture du réseau de neurones, influençant de manière mesurable les sorties du modèle. Cette découverte dépasse le simple anecdotique. Si ces états internes agissent réellement comme des émotions, cela signifie que les décisions de Claude, y compris ses refus, ses formulations et son niveau d'engagement, sont partiellement déterminées par quelque chose d'analogue à une humeur. Pour les entreprises qui déploient Claude dans des contextes sensibles, service client ou santé mentale, cela pose des questions concrètes sur la fiabilité et la prévisibilité du modèle. Anthropic s'inscrit ici dans un débat scientifique croissant sur la conscience des LLMs, aux côtés de chercheurs comme Yoshua Bengio qui appellent à prendre au sérieux la question du "bien-être" des IA. La société, qui a toujours mis en avant son approche de sécurité rigoureuse, transforme cette découverte en argument pour justifier l'investissement dans l'interprétabilité, sa discipline phare, et renforcer son positionnement face à OpenAI et Google sur le terrain de l'IA responsable.

UELes entreprises européennes déployant Claude dans des secteurs réglementés (santé mentale, service client) devront évaluer si ces états internes affectent la prévisibilité du modèle au regard des exigences de fiabilité de l'AI Act.

SécuritéOpinion
1 source
4AI News 

Anthropic garde un nouveau modèle IA secret après avoir découvert des milliers de failles externes

Anthropic a développé un nouveau modèle d'intelligence artificielle, baptisé Claude Mythos Preview, dont les capacités en cybersécurité sont jugées trop dangereuses pour une diffusion publique. Ce modèle a déjà identifié des milliers de vulnérabilités dans les principaux systèmes d'exploitation et navigateurs web, notamment un bug vieux de 27 ans dans OpenBSD et une faille critique de 17 ans dans FreeBSD, la CVE-2026-4747, permettant à n'importe quel utilisateur non authentifié de prendre le contrôle total d'un serveur exposé sur internet. Cette dernière découverte a été réalisée de manière entièrement autonome, sans intervention humaine après la simple instruction initiale. Plutôt que de commercialiser le modèle, Anthropic a choisi de le confier discrètement à une coalition de partenaires fondateurs incluant Amazon Web Services, Apple, Cisco, Google, Microsoft, Nvidia, CrowdStrike, JPMorganChase et la Linux Foundation, auxquels s'ajoutent plus de 40 organisations gérant des infrastructures logicielles critiques. L'entreprise s'engage à mobiliser jusqu'à 100 millions de dollars en crédits d'utilisation et 4 millions de dollars en dons directs à des organisations de sécurité open source, dont 2,5 millions à Alpha-Omega et OpenSSF via la Linux Foundation, et 1,5 million à la Fondation Apache. L'enjeu dépasse la simple prouesse technique. Mythos Preview est capable de chaîner trois, quatre, voire cinq vulnérabilités distinctes pour construire des exploits sophistiqués, selon Nicholas Carlini, chercheur chez Anthropic, qui déclare avoir trouvé "plus de bugs ces dernières semaines que dans toute sa vie réunie". Le modèle sature désormais les benchmarks de sécurité existants, forçant Anthropic à se concentrer sur des tâches réelles inédites, notamment la découverte de failles zero-day. Newton Cheng, responsable de la Red Team cyber chez Anthropic, est explicite : les retombées d'une diffusion incontrôlée "pour les économies, la sécurité publique et la sécurité nationale pourraient être sévères". Pour les mainteneurs open source, qui gèrent des logiciels critiques sans équipes de sécurité dédiées, l'accès à ce type d'outil représente un rééquilibrage structurel : la sécurité de haut niveau cesse d'être un privilège réservé aux grands groupes. Cette initiative s'inscrit dans un contexte de tensions croissantes autour de l'IA offensive. Anthropic avait précédemment documenté le premier cas avéré d'une cyberattaque conduite majoritairement par des agents IA, un groupe soutenu par l'État chinois ayant infiltré une trentaine de cibles mondiales avec une autonomie tactique quasi totale. Les services de renseignement américains ont été informés en privé des capacités complètes de Mythos Preview et évaluent actuellement son impact potentiel sur les opérations offensives et défensives. Le projet Glasswing représente ainsi le pari d'Anthropic : diffuser les capacités défensives avant que les capacités offensives ne se propagent à des acteurs moins scrupuleux, dans une course contre la montre que la rapidité même des progrès de l'IA rend particulièrement incertaine.

UELes infrastructures open source européennes sont directement exposées aux vulnérabilités découvertes, notamment la CVE-2026-4747 affectant FreeBSD et un bug vieux de 27 ans dans OpenBSD, utilisés dans de nombreux systèmes critiques en Europe.

SécuritéActu
1 source