
NVIDIA garak : construire un workflow complet de red-teaming défensif pour LLM avec sondes et détecteurs personnalisés
NVIDIA a publié un tutoriel complet sur garak, son framework open source dédié au red-teaming défensif des grands modèles de langage (LLM). L'outil, installable via pip, propose une architecture modulaire articulée autour de quatre types de composants : les probes (sondes d'attaque), les détecteurs, les générateurs et les buffs. Le tutoriel couvre l'ensemble du cycle de test, depuis la découverte des plugins jusqu'à l'export des résultats vers l'AVID (AI Vulnerability Database), en passant par la création de sondes et de détecteurs personnalisés. Concrètement, garak permet de soumettre un modèle à des attaques connues, comme le jailbreak DAN 11.0, l'injection via encodage Base64, ou la génération de contenu haineux (SlurUsage), et de mesurer automatiquement son taux de résistance via des scores de sécurité calculés par probe.
L'enjeu est direct pour toute organisation qui déploie des LLM en production : identifier les failles avant qu'elles ne soient exploitées. Garak automatise ce processus de test offensif en mode défensif, générant des rapports JSONL analysables avec des outils comme pandas ou numpy. Il est possible de lancer des scans sur des modèles Hugging Face (comme GPT-2), des API externes, ou des générateurs de test internes, avec parallélisation des tentatives jusqu'à 16 threads simultanés. Les résultats sont agrégés en scores de sécurité par probe, ce qui permet à une équipe de sécurité ML de prioriser les vulnérabilités et de documenter la surface d'attaque d'un modèle de façon systématique et reproductible.
Garak s'inscrit dans un mouvement plus large de professionnalisation de la sécurité des systèmes IA. Alors que les LLM sont de plus en plus intégrés dans des produits critiques, les attaques par prompt injection, jailbreak et contournement de garde-fous se multiplient. NVIDIA, qui positionne garak comme un outil de red-teaming défensif, rejoint ainsi un écosystème naissant comprenant des initiatives comme le projet AVID ou les travaux de l'OWASP sur les LLM Top 10. La capacité de garak à accepter des probes et détecteurs personnalisés en ouvre l'usage au-delà des scénarios préconfigurés, permettant à des équipes spécialisées de modéliser leurs propres vecteurs de menace. Les prochaines étapes naturelles de cet écosystème pointent vers l'intégration dans les pipelines CI/CD, afin que chaque mise à jour d'un modèle soit automatiquement auditée avant déploiement.
Les organisations européennes soumises à l'AI Act peuvent utiliser garak pour documenter systématiquement la surface d'attaque de leurs LLM et répondre aux exigences de red-teaming imposées aux systèmes IA à haut risque.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




