Aller au contenu principal
De GPT-2 à Claude Mythos : le retour des modèles d'IA jugés trop dangereux à publier
SécuritéThe Decoder6j

De GPT-2 à Claude Mythos : le retour des modèles d'IA jugés trop dangereux à publier

1 source couvre ce sujet·Source originale ↗·

Il y a sept ans, OpenAI avait annoncé en grande pompe que son modèle GPT-2 était « trop dangereux pour être publié », une décision largement moquée par l'industrie, qui y avait vu une opération de communication plus qu'une précaution réelle. Aujourd'hui, Anthropic reproduit le même geste avec Claude Mythos Preview, mais avec une différence de taille : cette fois, des preuves concrètes accompagnent la décision. Le modèle a identifié des milliers de vulnérabilités dans des systèmes d'exploitation et des navigateurs web, en un volume si élevé qu'aucune équipe humaine ne serait en mesure de les examiner dans un délai raisonnable.

L'enjeu est fondamentalement différent de 2019. Un modèle capable de découvrir et potentiellement d'exploiter des failles à cette échelle représente une menace asymétrique pour la cybersécurité mondiale : un acteur malveillant disposant d'un tel outil pourrait attaquer des infrastructures critiques bien plus vite que les défenseurs ne pourraient réagir. La question n'est plus théorique, elle est opérationnelle.

Ce changement de posture illustre une évolution profonde dans le secteur. La course aux capacités des LLM a produit des modèles dont les aptitudes dépassent désormais les cadres d'évaluation existants. Anthropic, qui a investi massivement dans la recherche sur la sécurité des IA avec son équipe d'« AI Safety », se retrouve dans la position inconfortable de restreindre ses propres créations. La question qui se pose maintenant est de savoir si d'autres laboratoires, sous pression concurrentielle, adopteront la même retenue ou choisiront de publier quand même.

Impact France/UE

La capacité d'un LLM à identifier des milliers de vulnérabilités systèmes renforce l'urgence d'encadrer les évaluations de sécurité des modèles à usage général dans le cadre de l'AI Act européen.

À lire aussi

Les tests Mythos AI du gouvernement britannique distinguent les vraies menaces cyber du battage médiatique
1Ars Technica AI 

Les tests Mythos AI du gouvernement britannique distinguent les vraies menaces cyber du battage médiatique

Le gouvernement britannique, via son AI Security Institute (AISI), a publié une évaluation indépendante du modèle Mythos Preview d'Anthropic, centré sur ses capacités en matière de cybersécurité offensive. Cette publication fait suite à l'annonce d'Anthropic la semaine précédente de restreindre l'accès initial à ce modèle à "un groupe limité de partenaires industriels critiques", le temps de préparer sa sortie publique. L'entreprise avait elle-même qualifié Mythos de modèle "remarquablement capable dans les tâches liées à la sécurité informatique". L'AISI confirme que le modèle dépasse les 85 % de réussite sur les défis Capture the Flag de niveau "Apprenti", une série d'épreuves de cybersécurité progressives utilisées depuis début 2023 pour évaluer les modèles d'IA. Sur les tâches individuelles de cybersécurité, Mythos ne se distingue pas fondamentalement des autres modèles frontières récents. Ce qui le différencie en revanche, c'est sa capacité à enchaîner ces tâches en séquences cohérentes et multi-étapes, ce type d'attaque coordonnée étant précisément ce qui permet d'infiltrer complètement un système réel. Cette nuance est cruciale : un modèle capable de relier reconnaissance, exploitation et persistance au sein d'une même session représente un saut qualitatif pour les attaquants potentiels, mais aussi pour les équipes défensives qui cherchent à automatiser les tests de pénétration. L'AISI mène ces évaluations sur Capture the Flag depuis début 2023, à une époque où GPT-3.5 Turbo peinait à résoudre les tâches de niveau débutant. La progression a été régulière depuis, et Mythos marque une nouvelle étape dans cette courbe. La décision d'Anthropic de limiter l'accès initial témoigne d'une stratégie de déploiement prudente face aux risques de mésusage dans un domaine aussi sensible. La publication des résultats par une institution gouvernementale indépendante apporte une crédibilité publique à ces avertissements, au-delà du discours commercial habituel des laboratoires d'IA.

UELes évaluations indépendantes de l'AISI britannique sur les capacités cyber offensives des LLMs pourraient servir de modèle aux régulateurs européens pour les audits de sécurité imposés par l'AI Act.

SécuritéOpinion
1 source
Des entreprises crypto cherchent à accéder au Mythos d'Anthropic tout en renforçant leurs défenses
2The Information AI 

Des entreprises crypto cherchent à accéder au Mythos d'Anthropic tout en renforçant leurs défenses

Les grandes plateformes de cryptomonnaies, dont Coinbase et Binance, se préparent activement à l'arrivée de Mythos, un modèle d'intelligence artificielle développé par Anthropic qui n'est pas encore accessible au public. Philip Martin, directeur de la sécurité de Coinbase, la plus grande bourse crypto américaine, a confirmé être en "communication étroite" avec Anthropic au sujet de ce modèle qualifié de "hautement restreint". Selon lui, Mythos serait capable d'identifier et d'exploiter des vulnérabilités logicielles à une échelle et une profondeur inédites. L'enjeu est considérable pour un secteur qui gère des milliards de dollars d'actifs numériques et constitue une cible privilégiée des hackers. Un modèle aussi puissant pour détecter des failles pourrait transformer radicalement les pratiques de sécurité offensive et défensive : les équipes de sécurité pourraient auditer leurs systèmes bien plus rapidement et exhaustivement qu'aujourd'hui, mais les attaquants mal intentionnés disposeraient du même avantage. Martin résume l'équation ainsi : Mythos "va accélérer les menaces numériques autant que la défense numérique". Cette course s'inscrit dans un contexte où Anthropic développe des modèles de plus en plus capables, au point de devoir en restreindre l'accès par précaution. Le fait qu'Anthropic choisisse de travailler en amont avec des acteurs critiques comme Coinbase ou Binance suggère une approche de déploiement contrôlé, visant à renforcer les défenses avant que de tels outils ne tombent entre de mauvaises mains. La question de qui aura accès à ces modèles, et sous quelles conditions, s'annonce comme un enjeu majeur des prochains mois.

UELes plateformes crypto européennes devront anticiper l'émergence de modèles IA capables d'exploiter des vulnérabilités à grande échelle, ce qui pourrait influencer les exigences de sécurité imposées par DORA et l'AI Act.

SécuritéOpinion
1 source
Le système de tatouage numérique IA de Google a-t-il été percé ?
3The Verge AI 

Le système de tatouage numérique IA de Google a-t-il été percé ?

Un développeur indépendant affirme avoir réingénié SynthID, le système de tatouage numérique développé par Google DeepMind pour identifier les images générées par intelligence artificielle. L'individu, qui se présente sous le pseudonyme Aloshdenny, a publié son travail en open source sur GitHub et décrit sa méthode sur Medium : il aurait utilisé seulement 200 images générées par Gemini, des techniques de traitement du signal, et beaucoup de temps libre. Selon lui, aucun réseau de neurones ni accès propriétaire n'ont été nécessaires. Google conteste ces affirmations et affirme que SynthID n'a pas été compromis. Si la démonstration s'avérait fondée, les conséquences seraient significatives : SynthID est présenté comme un outil clé pour lutter contre la désinformation et les deepfakes, en permettant de tracer l'origine des contenus synthétiques. Pouvoir retirer ou insérer ces marqueurs invisibles à la demande remettrait en cause toute la chaîne de confiance que Google cherche à construire autour de ses modèles génératifs, avec des implications directes pour les plateformes, les journalistes et les régulateurs. SynthID a été lancé en 2023 par Google DeepMind comme solution technique à la prolifération des images artificielles non détectables. Le système intègre un filigrane imperceptible directement dans les pixels générés, censé résister aux modifications courantes. La controverse s'inscrit dans un débat plus large sur la robustesse des systèmes de provenance des contenus IA, alors que l'Union européenne et d'autres régulateurs poussent à l'adoption de standards de traçabilité. L'affaire souligne combien ces mécanismes, s'ils ne sont pas cryptographiquement solides, peuvent offrir une fausse sécurité.

UESi la vulnérabilité est confirmée, cela fragilise les fondements techniques sur lesquels s'appuient les régulateurs européens, notamment dans le cadre de l'AI Act, pour imposer des standards de traçabilité obligatoire des contenus synthétiques.

SécuritéOpinion
1 source
Agents IA autonomes : qui valide leurs décisions avant qu’elles n’impactent le monde réel ?
4Le Big Data 

Agents IA autonomes : qui valide leurs décisions avant qu’elles n’impactent le monde réel ?

Les agents IA ont franchi un seuil décisif : ils ne se contentent plus d'assister les humains, ils agissent à leur place. Ajustement de prix en temps réel, passation de commandes fournisseurs, négociation de contrats, allocation de budgets marketing, ces décisions sont désormais prises en quelques millisecondes, sans intervention humaine. McKinsey estime que le marché du commerce agentique dépassera les 5 000 milliards de dollars d'ici 2030. Face à cette autonomie croissante, Vincent Dorange, expert e-commerce fort de vingt ans d'expérience, a développé en France l'ACF (Agentic Commerce Framework), un standard de gouvernance centré sur ce qu'il appelle la "Decision Validation Infrastructure" : une couche logicielle qui s'intercale entre l'intention de l'agent et l'action concrète, pour valider chaque décision avant qu'elle ne produise ses effets dans le monde réel. Le problème que résout ACF est structurel. Dans l'architecture logicielle classique, la chaîne de responsabilité est limpide : un utilisateur décide, un programme exécute. Avec les agents IA, cette chaîne se rompt. L'agent identifie une opportunité, prend une décision et l'exécute sans que personne ne valide si cette décision était légitime. Les conséquences sont déjà documentées dans les entreprises pionnières : transactions non autorisées passées inaperçues pendant des semaines, dérives comportementales qui érodent silencieusement les marges, violations réglementaires découvertes lors d'audits. Le moteur central d'ACF, le Decision Engine, intercepte chaque décision et la soumet à un pipeline de validation en temps réel portant sur trois dimensions, l'autorisation de l'agent à agir, la conformité de l'action avec les règles métier, et son alignement avec les contraintes réglementaires, avant d'autoriser ou de bloquer l'exécution. Le positionnement de ce framework s'inscrit dans une logique historique bien établie : chaque nouvelle surface critique de l'infrastructure technologique a engendré son propre type de garde-fou. Les réseaux ont produit les firewalls, les paiements ont produit Stripe, l'identité a produit OAuth. La gouvernance des décisions autonomes constitue la prochaine couche manquante. L'enjeu dépasse largement le cas d'usage e-commerce : dès lors que des agents IA engagent des ressources financières ou contractuelles au nom d'une entreprise, la question de leur légitimité décisionnelle devient un impératif juridique et opérationnel. ACF arrive à un moment où les régulateurs européens commencent à s'intéresser de près à la traçabilité des décisions automatisées, et où les premières directives sectorielles sur l'IA agentic commencent à émerger. Le framework français pourrait bien s'imposer comme une référence dans ce débat avant que les grandes plateformes américaines ne définissent elles-mêmes les standards.

UELe framework ACF, développé en France, s'inscrit directement dans les préoccupations réglementaires européennes sur la traçabilité des décisions automatisées par l'IA, et pourrait influencer les futurs standards de gouvernance agentique au niveau UE.

SécuritéOpinion
1 source