Aller au contenu principal
Jailbreak et Prompt Injection : comment les hackers piratent les IA
SécuritéLe Big Data2h

Jailbreak et Prompt Injection : comment les hackers piratent les IA

1 source couvre ce sujet·Source originale ↗·

Les intelligences artificielles génératives sont désormais exposées à deux catégories d'attaques bien documentées : le jailbreak et la prompt injection. Le jailbreak consiste à contourner les règles de sécurité intégrées dans un modèle de langage, ces filtres conçus pour empêcher la génération de contenus illégaux, haineux ou dangereux. La prompt injection, elle, introduit des instructions malveillantes directement dans l'entrée du modèle, en exploitant le fait que les LLM ne distinguent pas naturellement une donnée d'une commande. Microsoft et OpenAI ont tous deux documenté de nombreux cas réels où des séquences de messages soigneusement construites, parfois sous forme de jeux de rôle ou de formulations persuasives, ont suffi à faire contourner ses garde-fous à un modèle. La prompt injection prend deux formes : directe, via le champ de saisie de l'utilisateur, ou indirecte, dissimulée dans un document externe lu par l'IA, comme un e-mail ou une page web.

Ces vulnérabilités cessent d'être des curiosités techniques dès lors que les IA pilotent des systèmes critiques en entreprise. Un modèle compromis peut exfiltrer des données confidentielles, exécuter des commandes non autorisées ou propager des contenus nuisibles à grande échelle. La dangerosité tient en grande partie à l'asymétrie de l'attaque : ces techniques sont faciles à lancer, ne nécessitent aucune modification du code source, mais restent difficiles à détecter en temps réel. Les applications d'entreprise qui connectent des LLM à des bases de données, des messageries ou des outils internes représentent une surface d'attaque particulièrement exposée, car une injection indirecte peut s'activer sans intervention directe de l'attaquant sur l'interface.

La combinaison des deux méthodes amplifie encore le risque : le jailbreak peut être le résultat d'une série de prompts injectés progressivement, poussant le modèle à ignorer ses instructions de base par accumulation. Ce phénomène s'inscrit dans un contexte plus large où la sécurité des systèmes IA accuse un retard structurel sur leur déploiement. Contrairement à la sécurité applicative classique, il n'existe pas encore de standard universel pour auditer ou certifier la robustesse d'un modèle face à ces attaques. Les chercheurs en sécurité, les équipes red team d'OpenAI, Google et Anthropic, ainsi que des cabinets indépendants, travaillent à établir des benchmarks fiables, mais la course entre attaque et défense reste ouverte. La vigilance humaine dans la supervision des sorties des modèles demeure, à ce stade, la mesure de protection la plus concrète disponible.

À lire aussi

Anthropic a exclu l'agence américaine de cybersécurité du déploiement de Mythos
1The Verge 

Anthropic a exclu l'agence américaine de cybersécurité du déploiement de Mythos

Plusieurs agences fédérales américaines ont commencé à utiliser Mythos Preview, le nouveau modèle de cybersécurité d'Anthropic, pour détecter et corriger des vulnérabilités informatiques. Selon un rapport d'Axios publié mardi, la Cybersecurity and Infrastructure Security Agency (CISA), l'agence centrale chargée de coordonner la cybersécurité nationale aux États-Unis, n'a pas accès à cet outil. En revanche, le Département du Commerce et la National Security Agency (NSA) l'utilisent déjà. L'administration Trump négocie par ailleurs un accès élargi au modèle pour d'autres entités gouvernementales. L'absence de CISA est paradoxale : c'est précisément l'agence dont le mandat est de protéger les infrastructures critiques américaines contre les cybermenaces. Lui refuser l'accès à un outil présenté comme particulièrement efficace pour identifier des failles de sécurité affaiblit potentiellement le maillon central du dispositif de défense cyber du gouvernement fédéral. Cela crée également une asymétrie au sein des agences : certaines bénéficient d'un avantage technologique que d'autres, pourtant directement concernées, n'ont pas. Anthropic a positionné Mythos comme un modèle spécialisé dans la sécurité informatique, capable de trouver et de corriger des vulnérabilités à une échelle difficile à atteindre manuellement. La course aux modèles d'IA dédiés à la cybersécurité s'intensifie, alors que les administrations cherchent à moderniser leurs défenses face à des menaces croissantes. La question de l'accès différencié entre agences gouvernementales pourrait alimenter des tensions internes et relancer le débat sur la gouvernance de l'IA dans les institutions fédérales.

SécuritéOpinion
1 source
Xinference : encore un paquet PyPI verolé qui vole vos secrets en silence
2Next INpact 

Xinference : encore un paquet PyPI verolé qui vole vos secrets en silence

Les versions 2.6.0, 2.6.1 et 2.6.2 de Xinference, bibliothèque Python populaire permettant aux développeurs de basculer entre différents modèles d'IA open source en une seule ligne de code, ont été compromises sur PyPI, le dépôt officiel des paquets Python. L'attaque a été détectée par un utilisateur puis analysée par les chercheurs de JFrog, entreprise spécialisée en cybersécurité. Ce ne sont pas de faux paquets ou des variantes orthographiques trompeuses qui ont été mis en ligne : ce sont bien les paquets officiels de Xinference qui ont été infectés par des trojans. Le code malveillant, dissimulé en base64 dans le fichier init.py, s'exécute dès l'import de la bibliothèque, sans aucune interaction de l'utilisateur. Une fois lancé, il cible méthodiquement clés SSH et TLS privées, identifiants Git, secrets AWS, fichiers .env, configurations de messagerie, de bases de données, de Docker, Kubernetes, VPN, jetons de gestionnaires de paquets et portefeuilles de cryptomonnaies, le tout compressé dans une archive sobrement nommée love.tar.gz et exfiltré via une requête POST vers un serveur externe. Dans le cas d'AWS, le malware va plus loin : il se connecte directement au compte Amazon avec les clés volées pour y dérober d'autres secrets avant de les transmettre, grâce à une fonction baptisée def aws_req. JFrog avertit sans ambiguïté : quiconque a installé l'une de ces trois versions doit considérer que sa machine est compromise. La dernière version saine est la 2.5.0, mais les versions piégées restent accessibles dans l'historique PyPI. L'impact potentiel est considérable. Xinference est utilisée par des développeurs qui expérimentent ou déploient des modèles d'IA localement ou dans le cloud, un profil qui correspond à des équipes techniquement avancées disposant souvent d'accès à des infrastructures cloud, des dépôts de code privés et des environnements de production. Le vol de clés AWS ou de secrets d'environnement ne se limite pas à une compromission de la machine locale : il ouvre la porte à des attaques en cascade sur des systèmes entiers, des bases de données, voire des pipelines CI/CD. La nature automatique et silencieuse de l'exfiltration, rendue possible par la désactivation des sorties standard et d'erreur via un sous-processus Python, signifie que la plupart des victimes n'ont aucun moyen de détecter l'intrusion au moment où elle se produit. Cette attaque s'inscrit dans une série inquiétante visant spécifiquement l'écosystème des outils d'IA. En mars 2026, c'était Trivy, scanner de vulnérabilités, puis LiteLLM et Axios qui avaient été ciblés. JFrog attribue l'offensive contre Xinference au même groupe, TeamPCP, en s'appuyant sur la structure du code et les similitudes techniques avec les attaques précédentes, même si le compte X du groupe dément. La méthode reste inconnue : les mainteneurs de Xinference ont simplement confirmé l'attaque et retiré les versions corrompues sans expliquer comment les paquets officiels ont pu être modifiés. Cette opacité complique la réponse de la communauté et illustre les failles persistantes dans la chaîne d'approvisionnement logicielle open source, où la compromission d'un compte de mainteneur ou d'un pipeline de publication suffit à transformer un outil de confiance en vecteur d'attaque massif.

UELes développeurs européens ayant installé Xinference 2.6.0–2.6.2 doivent considérer leur environnement comme compromis et procéder immédiatement à la rotation de tous leurs secrets cloud, clés SSH et tokens d'accès.

SécuritéActu
1 source
Les IA de détection de vulnérabilités réduisent les coûts de sécurité en entreprise
3AI News 

Les IA de détection de vulnérabilités réduisent les coûts de sécurité en entreprise

L'équipe d'ingénierie de Mozilla Firefox a annoncé avoir identifié et corrigé 271 vulnérabilités de sécurité dans la version 150 du navigateur, grâce à une évaluation menée avec Claude Mythos Preview, le modèle frontier d'Anthropic. Cette collaboration fait suite à un premier partenariat avec Anthropic utilisant Claude Opus 4.6, qui avait permis de détecter 22 corrections sensibles sur le plan sécuritaire dans la version 148. En quelques semaines, l'IA a donc fait remonter des centaines de failles dans un codebase mature et massif, un résultat que des équipes humaines auraient mis des mois à produire. Les ingénieurs de Firefox ont également noté qu'ils n'ont trouvé aucune catégorie de faille, ni aucun niveau de complexité, que l'humain puisse identifier et que le modèle ne puisse pas. Symétriquement, aucun bug détecté par l'IA n'était hors de portée d'un chercheur humain d'élite. Ce résultat renverse une dynamique économique qui favorisait structurellement les attaquants depuis des décennies. La doctrine défensive classique consistait à rendre les attaques suffisamment coûteuses pour décourager tous sauf les acteurs disposant de budgets illimités. Avec l'IA, c'est désormais la découverte de vulnérabilités qui devient bon marché et systématique du côté des défenseurs. Pour les entreprises, le calcul est limpide : dans un environnement réglementaire strict, le coût d'un audit automatisé continu est sans commune mesure avec celui d'une violation de données ou d'une attaque par ransomware. L'automatisation réduit aussi la dépendance aux consultants externes spécialisés, dont la rareté et le coût représentaient jusqu'ici un frein réel pour les équipes de sécurité interne. L'enjeu dépasse largement Firefox. Pendant des années, les chercheurs en sécurité d'élite compensaient les limites du fuzzing automatisé en raisonnant manuellement sur le code source pour détecter des failles logiques, un travail lent, coûteux et contraint par la rareté des experts. L'intégration de modèles comme Mythos Preview supprime cette contrainte humaine. Des outils capables d'un tel raisonnement étaient inimaginables il y a quelques mois. Cette évolution profite aussi aux entreprises incapables de se permettre une réécriture complète de leur base de code C++ en Rust ou dans d'autres langages sécurisés par construction : l'IA leur offre un moyen de sécuriser du code legacy sans engager une refonte financièrement prohibitive. Si d'autres éditeurs de logiciels critiques exposés sur internet adoptent des méthodes similaires, le niveau de référence de la sécurité logicielle pourrait franchir un seuil structurel, réduisant durablement l'avantage offensif dont bénéficiaient jusqu'ici les acteurs malveillants.

UEDans un contexte réglementaire européen strict (NIS2, RGPD), l'audit de sécurité automatisé continu offre aux entreprises européennes une réponse économiquement viable à leurs obligations de conformité et réduit le risque financier lié aux violations de données.

💬 271 failles dans Firefox, en quelques semaines. Depuis des décennies, le bras de fer penchait côté attaque : trouver une faille a toujours coûté moins cher que la corriger, et les équipes sécu passaient leur temps à rendre les attaques suffisamment chères pour décourager les petits budgets, pas les gros. Si l'IA systématise la découverte du côté défenseur, ça change le calcul, et pour les boîtes avec du legacy C++ qu'elles ne peuvent pas réécrire, c'est presque une bouée de sauvetage.

SécuritéOpinion
1 source
Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains
4The Verge 

Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains

Un groupe restreint d'utilisateurs non autorisés a réussi à accéder à Mythos, le modèle d'intelligence artificielle cybersécurité d'Anthropic, selon une enquête de Bloomberg publiée en avril 2026. L'accès aurait été obtenu grâce à un sous-traitant tiers d'Anthropic, qui a permis à des membres d'un forum privé en ligne d'exploiter ses accréditations combinées à des outils de recherche ouverts sur internet. Claude Mythos Preview est un modèle nouvelle génération capable d'identifier et d'exploiter des failles de sécurité dans tous les grands systèmes d'exploitation et navigateurs web du marché. L'incident est particulièrement préoccupant car Anthropic avait elle-même qualifié Mythos de modèle "dangereux entre de mauvaises mains", justifiant ainsi un accès strictement limité et contrôlé. Un outil capable de cartographier et d'exploiter des vulnérabilités à l'échelle de Windows, macOS, Chrome ou Firefox représente une menace concrète s'il est utilisé à des fins malveillantes, que ce soit pour des cyberattaques ciblées, du vol de données ou des opérations d'espionnage industriel. Cet accès non autorisé illustre une tension centrale dans le développement des modèles d'IA à double usage: plus les capacités cybersécurité sont avancées, plus les risques de détournement augmentent. Anthropic fait partie des rares laboratoires à avoir instauré des restrictions d'accès explicites pour ses modèles les plus sensibles, une approche que l'incident remet en question. La fuite via un sous-traitant soulève aussi des interrogations sur les pratiques de gestion des accès au sein des grands laboratoires d'IA, où la chaîne de confiance s'étend bien au-delà des équipes internes.

UELes administrations et entreprises françaises et européennes utilisant Windows, macOS ou les navigateurs Chrome et Firefox sont potentiellement exposées à des cyberattaques plus sophistiquées si les capacités du modèle Mythos venaient à être exploitées par des acteurs malveillants.

SécuritéActu
1 source