
Red-Teaming après Mythos : Zico Kolter et Matt Fredrikson, Gray Swan
Zico Kolter, membre du conseil d'administration d'OpenAI au sein du comité Sécurité et Sûreté, et Matt Fredrikson, professeur à Carnegie Mellon University et PDG de la startup Gray Swan, ont accordé un long entretien au podcast AI Engineer pour dresser l'état de l'art du red-teaming en intelligence artificielle. La discussion intervient dans un contexte particulier : le gouvernement américain a récemment émis une directive de contrôle à l'exportation visant les modèles Mythos et Fable, propulsant sur le devant de la scène les risques de jailbreaks et d'injection de prompts indirects. Gray Swan, que les deux cofondateurs dirigent ensemble, avait été cité comme autorité de référence dans la fiche technique du modèle Mythos, ayant directement investigué les capacités aujourd'hui sous scrutin. Leur entreprise a notamment développé Shade, l'outil de red-teaming adversarial utilisé par Anthropic pour évaluer la robustesse de ses modèles face aux attaques par injection de prompts dans les environnements de développement, ainsi que Cygnal, un produit de guardrails pour agents IA, et la plus grande arène communautaire de red-teaming au monde.
L'enjeu central que soulèvent Kolter et Fredrikson est que la sécurité de l'IA ne se réduit pas à de la cybersécurité traditionnelle augmentée : les agents IA introduisent une catégorie entièrement nouvelle de vulnérabilités. L'injection de prompts indirects, par exemple, permet à un attaquant de compromettre un agent comme Claude Code ou Codex en lui faisant traiter des données non fiables contenant des instructions malveillantes, qui peuvent ensuite conduire à l'exfiltration de données privées. Cette combinaison, baptisée la « trilogie létale » par Simon Willison, données non fiables, données sensibles et vecteur d'exfiltration, représente un risque systémique pour tout déploiement enterprise. Et contrairement à l'intuition dominante, les modèles plus grands ne sont pas automatiquement plus robustes : la mise à l'échelle n'est pas un antidote à ces vulnérabilités. Fait frappant, les modèles de red-teaming spécialisés développés par Gray Swan surpassent désormais les humains dans leur capacité à briser d'autres systèmes d'IA.
Le cadre conceptuel que propose Gray Swan est celui des « cygnes gris » : des événements peu probables mais clairement prévisibles avant qu'ils ne surviennent. La première grande intrusion par injection de prompts en conditions réelles est, selon eux, probablement inévitable. Ce qui rend le moment actuel critique, c'est la convergence entre la montée en puissance des agents autonomes, les nouvelles exigences réglementaires et l'émergence d'un marché de l'assurance et de la conformité spécifique à l'IA. La question de l'identité native des agents, la gestion fine de leurs permissions en environnement enterprise, et la capacité à faire attaquer, défendre et interpréter les systèmes d'IA par d'autres systèmes d'IA dessinent les contours d'un champ disciplinaire encore naissant, mais dont les enjeux industriels et sociétaux sont déjà considérables.
Les entreprises européennes déployant des agents IA sont directement exposées aux risques d'injection de prompts indirects décrits, et les exigences de l'AI Act en matière de sécurité rendent ces outils de red-teaming et guardrails pertinents pour la conformité des déploiements enterprise en Europe.
La "trilogie létale" (données non fiables, données sensibles, vecteur d'exfiltration), c'est enfin un cadre qui rend le risque d'injection de prompts lisible pour une équipe technique. Le point qui dérange : un modèle plus grand ne protège pas mieux contre ces attaques, la mise à l'échelle n'est pas un antidote. La première grosse intrusion par injection de prompts en conditions réelles arrivera, Kolter et Fredrikson le posent clairement sur la table, et les équipes qui ont déployé des agents sans red-teaming vont morfler.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




