Aller au contenu principal
NVIDIA garak : construire un workflow complet de red-teaming défensif pour LLM avec sondes et détecteurs personnalisés
SécuritéMarkTechPost2h

NVIDIA garak : construire un workflow complet de red-teaming défensif pour LLM avec sondes et détecteurs personnalisés

Résumé IASource uniqueImpact UE
Source originale ↗·

NVIDIA a publié un tutoriel complet sur garak, son framework open source dédié au red-teaming défensif des grands modèles de langage (LLM). L'outil, installable via pip, propose une architecture modulaire articulée autour de quatre types de composants : les probes (sondes d'attaque), les détecteurs, les générateurs et les buffs. Le tutoriel couvre l'ensemble du cycle de test, depuis la découverte des plugins jusqu'à l'export des résultats vers l'AVID (AI Vulnerability Database), en passant par la création de sondes et de détecteurs personnalisés. Concrètement, garak permet de soumettre un modèle à des attaques connues, comme le jailbreak DAN 11.0, l'injection via encodage Base64, ou la génération de contenu haineux (SlurUsage), et de mesurer automatiquement son taux de résistance via des scores de sécurité calculés par probe.

L'enjeu est direct pour toute organisation qui déploie des LLM en production : identifier les failles avant qu'elles ne soient exploitées. Garak automatise ce processus de test offensif en mode défensif, générant des rapports JSONL analysables avec des outils comme pandas ou numpy. Il est possible de lancer des scans sur des modèles Hugging Face (comme GPT-2), des API externes, ou des générateurs de test internes, avec parallélisation des tentatives jusqu'à 16 threads simultanés. Les résultats sont agrégés en scores de sécurité par probe, ce qui permet à une équipe de sécurité ML de prioriser les vulnérabilités et de documenter la surface d'attaque d'un modèle de façon systématique et reproductible.

Garak s'inscrit dans un mouvement plus large de professionnalisation de la sécurité des systèmes IA. Alors que les LLM sont de plus en plus intégrés dans des produits critiques, les attaques par prompt injection, jailbreak et contournement de garde-fous se multiplient. NVIDIA, qui positionne garak comme un outil de red-teaming défensif, rejoint ainsi un écosystème naissant comprenant des initiatives comme le projet AVID ou les travaux de l'OWASP sur les LLM Top 10. La capacité de garak à accepter des probes et détecteurs personnalisés en ouvre l'usage au-delà des scénarios préconfigurés, permettant à des équipes spécialisées de modéliser leurs propres vecteurs de menace. Les prochaines étapes naturelles de cet écosystème pointent vers l'intégration dans les pipelines CI/CD, afin que chaque mise à jour d'un modèle soit automatiquement auditée avant déploiement.

Impact France/UE

Les organisations européennes soumises à l'AI Act peuvent utiliser garak pour documenter systématiquement la surface d'attaque de leurs LLM et répondre aux exigences de red-teaming imposées aux systèmes IA à haut risque.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

19 outils de red teaming pour l'IA (2026) : sécurisez vos modèles ML
1MarkTechPost 

19 outils de red teaming pour l'IA (2026) : sécurisez vos modèles ML

La sécurité des systèmes d'intelligence artificielle est devenue un enjeu majeur en 2026, poussant un nombre croissant d'équipes techniques à adopter des pratiques dites de "red teaming IA", une discipline qui consiste à tester les modèles d'apprentissage automatique en simulant des attaques adversariales réelles. Contrairement aux tests de pénétration classiques qui ciblent des failles logicielles connues, le red teaming IA explore des vulnérabilités spécifiques aux modèles génératifs : injection de prompt, empoisonnement de données, contournement des garde-fous (jailbreaking), fuite de données d'entraînement ou exploitation de biais. Un panorama publié en 2026 recense les 19 outils les plus fiables dans ce domaine, couvrant aussi bien des solutions open-source que des plateformes commerciales. Parmi eux figurent Garak, un toolkit open-source dédié aux LLM, PyRIT de Microsoft, l'outil AIF360 d'IBM centré sur les biais algorithmiques, Foolbox pour les attaques adversariales sur les modèles de vision, ou encore Mindgard et Dreadnode Crucible pour les évaluations automatisées de vulnérabilités. Des outils comme Guardrails ou Snyk s'adressent plus spécifiquement aux développeurs cherchant à intégrer la défense contre les injections de prompt directement dans leur pipeline de développement. L'importance de ces outils dépasse largement le cadre purement technique. Les organisations qui déploient des systèmes d'IA à fort impact, dans la santé, la finance, la justice ou les ressources humaines, sont désormais soumises à des cadres réglementaires qui exigent explicitement des évaluations adversariales. L'AI Act européen, le NIST Risk Management Framework américain et plusieurs décrets exécutifs aux États-Unis imposent ou recommandent fortement le red teaming pour les déploiements à haut risque. Au-delà de la conformité, ces pratiques permettent de détecter des comportements émergents imprévus, des failles qui n'apparaissent pas lors des tests standard en pré-production mais se manifestent en conditions réelles, avec des utilisateurs malveillants ou des données inattendues. Cette montée en puissance du red teaming IA s'inscrit dans un contexte de généralisation rapide des modèles génératifs en production, exposant des surfaces d'attaque inédites que les approches de sécurité traditionnelles ne couvrent pas. Microsoft, IBM et des startups spécialisées comme Mindgard ou Dreadnode ont investi massivement dans des plateformes capables d'automatiser ces tests et de les intégrer aux pipelines CI/CD, permettant une évaluation continue plutôt que ponctuelle. La tendance est à la combinaison d'expertise humaine et d'automatisation : les équipes de sécurité internes ou les prestataires spécialisés utilisent ces outils pour simuler des comportements d'attaquants sophistiqués, identifier les angles morts des modèles et renforcer leur résilience avant qu'une vulnérabilité ne soit exploitée en production.

UEL'AI Act européen imposant des évaluations adversariales pour les systèmes à haut risque, ces outils de red teaming deviennent indispensables pour les organisations françaises et européennes cherchant à se conformer aux exigences réglementaires.

SécuritéActu
1 source
Les Américains ne savent pas détecter les deepfakes : une crise pour les entreprises, pas seulement pour les consommateurs
2VentureBeat AI 

Les Américains ne savent pas détecter les deepfakes : une crise pour les entreprises, pas seulement pour les consommateurs

Une enquête publiée en 2026 par la société estonienne de vérification d'identité Veriff, menée avec l'institut Kantar auprès de 3 000 personnes aux États-Unis, au Royaume-Uni et au Brésil, révèle que les Américains sont incapables de distinguer un deepfake d'un contenu authentique de manière fiable. Sur une échelle où 0 représente le hasard pur, les répondants américains n'obtiennent qu'un score de 0,07, à peine mieux qu'un pile ou face. Seulement 63 % des adultes américains déclarent savoir ce qu'est un deepfake, contre 74 % au Royaume-Uni et 67 % au Brésil. Les vidéos générées par IA sont régulièrement identifiées comme authentiques, tandis que de vraies vidéos sont souvent signalées comme fausses. En comparaison côte à côte, les jugements des participants se répartissent de manière presque égale, rendant l'inspection visuelle obsolète comme méthode de vérification. Malgré tout, environ la moitié des répondants américains se disent confiants dans leur capacité à détecter ces contenus manipulés. Ce décalage entre confiance perçue et compétence réelle représente un risque systémique pour les entreprises. Toute plateforme numérique qui repose sur la vérification d'identité par image ou vidéo est directement exposée : onboarding bancaire, récupération de compte, authentification sur les réseaux sociaux, contrôle d'accès en entreprise, vérification des vendeurs sur les marketplaces. Aux États-Unis, la fraude à l'identité synthétique génère déjà des milliards de dollars de pertes annuelles. L'étude identifie également une catégorie à très haut risque : environ 7 % des utilisateurs, peu habiles à détecter les deepfakes mais très confiants dans leur jugement, qui vérifient rarement ce qu'ils voient. A l'échelle nationale, ce groupe représente des millions de comptes facilement exploitables. Ira Bondar-Mucci, responsable de la plateforme anti-fraude chez Veriff, est direct : "L'oeil humain n'est plus une ligne de défense fiable. Les entreprises doivent investir dans des technologies de vérification automatisée capables de détecter ce que les humains ne peuvent simplement pas." Le paradoxe est saisissant : les États-Unis sont le centre mondial du développement de l'IA générative, mais leurs consommateurs restent les moins familiarisés avec l'un de ses sous-produits les plus dangereux. Historiquement, le débat sur la fraude numérique américaine s'est centré sur la confidentialité des données plutôt que sur l'authenticité des contenus, laissant un angle mort considérable. Avec la démocratisation rapide des outils permettant de générer des faux convaincants, ce retard de sensibilisation amplifie le risque au lieu de le contenir. Veriff et d'autres acteurs de la vérification d'identité appellent les entreprises et les décideurs politiques à traiter cette question non plus comme une obligation de conformité réglementaire, mais comme une infrastructure numérique fondamentale. L'enjeu dépasse la simple fraude individuelle : si les systèmes visuels de vérification peuvent être contournés à grande échelle, c'est la confiance dans l'ensemble des échanges numériques qui se fragilise.

UELes conclusions de Veriff (entreprise estonienne, donc acteur UE) s'appliquent directement aux entreprises européennes qui s'appuient sur la vérification d'identité visuelle pour leurs obligations KYC/AML, dans un contexte où l'AI Act encadre déjà les systèmes biométriques à risque élevé.

SécuritéOpinion
1 source
Amazon utilise des agents IA pour la détection de vulnérabilités à grande échelle
3Amazon Science 

Amazon utilise des agents IA pour la détection de vulnérabilités à grande échelle

En 2025, la base de données nationale des vulnérabilités américaine (NVD) a enregistré plus de 48 000 nouvelles failles de sécurité référencées (CVE), un volume rendu possible en grande partie par la prolifération des outils automatisés de détection. Face à cette explosion, Amazon Web Services a développé RuleForge, un système d'intelligence artificielle agentique conçu pour générer automatiquement des règles de détection à partir d'exemples de code d'exploitation de vulnérabilités. Déployé en production chez AWS, RuleForge affiche une productivité supérieure de 336 % à la création manuelle, tout en conservant le niveau de précision exigé pour des systèmes de sécurité industriels. Les règles produites sont au format JSON et alimentent directement MadPot, le système mondial de "honeypot" d'Amazon qui capture le comportement des attaquants, ainsi que Sonaris, le moteur interne de détection d'exploits suspects. Avant RuleForge, transformer une CVE en règle de détection opérationnelle était un processus entièrement manuel : un analyste téléchargeait le code de preuve de concept, étudiait le mécanisme d'attaque, rédigeait la logique de détection, la validait par itérations successives contre les journaux de trafic, puis soumettait le tout à une revue par un second ingénieur avant déploiement. Ce cycle, rigoureux mais lent, obligeait les équipes à prioriser strictement les vulnérabilités traitées, laissant potentiellement des failles critiques sans couverture. RuleForge comprime ce délai de façon drastique : le système ingère automatiquement le code d'exploitation public, attribue un score de priorité via une analyse de contenu croisée avec des sources de threat intelligence, puis génère en parallèle plusieurs règles candidates via un agent tournant sur AWS Fargate avec Amazon Bedrock. Chaque candidate est évaluée non pas par le modèle qui l'a produite, mais par un agent "juge" distinct, évitant ainsi l'auto-validation biaisée. Les humains restent dans la boucle pour l'approbation finale avant mise en production. Cette architecture reflète une tendance profonde dans la sécurité offensive et défensive : l'automatisation par IA ne remplace pas les experts, elle leur permet de travailler à une échelle autrement inaccessible. AWS anticipe une croissance continue du nombre de CVE à haute sévérité publiées, portée par les mêmes outils d'IA qui accélèrent la découverte de failles côté attaquants. RuleForge représente la réponse symétrique côté défense, en industrialisant la réactivité. L'approche modulaire, avec des agents spécialisés pour la génération, l'évaluation et le raffinement, plutôt qu'un seul modèle monolithique, s'inscrit dans la lignée des architectures multi-agents qui émergent comme standard pour les tâches complexes nécessitant fiabilité et auditabilité. D'autres grands acteurs du cloud font face aux mêmes défis, et la publication par Amazon des détails de RuleForge suggère une volonté de positionner cette approche comme référence sectorielle.

SécuritéActu
1 source
Anthropic : son modèle Mythos serait utilisé par la NSA pour des opérations offensives contre la Chine et l'Iran
4The Decoder 

Anthropic : son modèle Mythos serait utilisé par la NSA pour des opérations offensives contre la Chine et l'Iran

Anthropic a déployé une demi-douzaine d'ingénieurs directement au sein de la NSA pour adapter son modèle d'IA Mythos à des opérations cyber offensives. Selon des informations rapportées par The Decoder, ce modèle serait utilisé pour mener des intrusions dans des réseaux en Chine et en Iran. Il s'agit d'un positionnement inédit pour une entreprise d'IA qui se présente habituellement sous l'angle de la sécurité responsable et du développement maîtrisé des systèmes d'intelligence artificielle. Cette collaboration soulève des questions importantes sur la frontière entre IA commerciale et IA militaire. Anthropic, comme d'autres acteurs du secteur, avait formulé des engagements publics limitant certains usages de ses modèles, notamment la surveillance de masse. Or, ces restrictions s'appliquent explicitement aux seuls citoyens américains, laissant une marge d'utilisation considérable pour des opérations visant des populations étrangères. L'intégration directe d'ingénieurs civils dans une agence de renseignement militaire marque un pas supplémentaire vers la militarisation de l'IA grand public. Ce mouvement s'inscrit dans une dynamique plus large de course aux capacités cyber entre les États-Unis, la Chine et l'Iran, dans laquelle les grands modèles de langage jouent un rôle croissant pour automatiser la détection de vulnérabilités et la conception d'attaques. Anthropic rejoint ainsi OpenAI et d'autres laboratoires qui ont noué des partenariats avec le Pentagone ou les agences fédérales américaines. Le modèle Mythos, distinct des produits commerciaux comme Claude, semble avoir été conçu ou adapté spécifiquement pour répondre aux besoins classifiés de la communauté du renseignement.

UECe cas de militarisation d'un LLM commercial alimente les débats européens sur l'exemption militaire dans l'AI Act et la régulation des IA à double usage civilo-militaire.

💬 Le discours "sécurité responsable" d'Anthropic vient de prendre un sacré coup. Des ingénieurs civils intégrés directement à la NSA, un modèle dédié et classifié pour de la cyber offensive, des engagements publics qui s'appliquent aux seuls citoyens américains (le reste du monde, bonne chance) : c'est le genre de décision qui se justifie probablement en interne avec "si ce n'est pas nous, ce sera quelqu'un d'autre". OpenAI a fait le même virage, mais Anthropic se vendait différemment.

SécuritéActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour