Aller au contenu principal
Concevoir des agents IA résistants aux injections de prompts
SécuritéOpenAI Blog14sem· 1 min de lecture

Concevoir des agents IA résistants aux injections de prompts

Source originale ↗·

ChatGPT intègre des mécanismes de défense contre les attaques par injection de prompt en limitant les actions risquées et en protégeant les données sensibles dans les workflows d'agents IA. Ces protections visent à empêcher la manipulation sociale et l'exécution de commandes malveillantes injectées via des entrées externes. Cette approche constitue une référence pour concevoir des agents robustes face aux vecteurs d'attaque courants en environnement de production.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI 

Trois agents de codage IA ont laissé fuiter des secrets via une injection de prompt, un éditeur l'avait prédit

Un chercheur en sécurité de l'Université Johns Hopkins, Aonan Guan, accompagné de ses collègues Zhengyu Liu et Gavin Zhong, a publié la semaine dernière une divulgation technique intitulée "Comment and Control" démontrant qu'une simple injection de prompt dans le titre d'une pull request GitHub suffisait à compromettre trois agents de codage IA majeurs. L'attaque a forcé l'action Claude Code Security Review d'Anthropic à publier sa propre clé API en commentaire, et la même technique a fonctionné sur le Gemini CLI Action de Google ainsi que sur le Copilot Agent de GitHub (Microsoft), sans nécessiter aucune infrastructure externe. Les trois entreprises ont discrètement corrigé la faille : Anthropic l'a classée CVSS 9.4 Critique en versant une prime de 100 dollars, Google a payé 1 337 dollars, et GitHub a accordé 500 dollars via son programme Copilot Bounty. Aucune des trois n'avait publié de CVE officiel ni d'avis de sécurité public au moment de la divulgation. L'impact de cette vulnérabilité touche directement tous les dépôts GitHub utilisant le déclencheur pullrequesttarget, requis par la plupart des intégrations d'agents IA pour accéder aux secrets. Contrairement au déclencheur standard pull_request, ce mode injecte les secrets dans l'environnement d'exécution, exposant collaborateurs, champs de commentaires et flux de code automatisé à des acteurs malveillants. Merritt Baer, directrice de la sécurité chez Enkrypt AI et ancienne directrice adjointe de la sécurité chez AWS, résume l'enjeu sans détour : la protection doit se situer "à la frontière de l'action, pas à celle du modèle", c'est le runtime qui constitue le véritable périmètre d'exposition. Cette attaque illustre une surface de risque concrète pour toute organisation ayant intégré des agents IA dans ses pipelines de revue de code. Ce qui rend cet incident particulièrement révélateur, c'est que la fiche système d'Anthropic pour Claude Code Security Review indiquait explicitement que l'outil "n'est pas durci contre les injections de prompt", l'exploit n'a fait que confirmer ce qui était documenté. En comparaison, la fiche système d'OpenAI pour GPT-5.4 publie des évaluations d'injection au niveau du modèle mais ne documente pas la résistance au niveau du runtime ou de l'exécution des outils. Celle de Google pour Gemini 3.1 Pro, publiée en février, renvoie pour l'essentiel à une documentation plus ancienne et maintient son programme de red teaming entièrement interne, sans programme cyber externe. L'écart entre ce que les éditeurs documentent et ce qu'ils protègent réellement est désormais au coeur du débat sur la sécurité des agents IA déployés dans des environnements de développement sensibles.

UELes organisations européennes intégrant des agents IA (Claude Code, Gemini CLI, Copilot) dans leurs pipelines CI/CD GitHub sont directement exposées : tout dépôt utilisant le déclencheur `pullrequesttarget` peut avoir vu ses secrets fuiter, et une revue de configuration s'impose immédiatement.

💬 Anthropic a classé ça CVSS 9.4 et a payé 100 dollars de bounty. Cent dollars pour une fuite de clé API dans le titre d'une pull request, c'est le genre de disproportion qui dit tout sur comment ces outils ont été mis en prod. Le pire, c'est que c'était écrit noir sur blanc dans leur system card : "non durci contre les injections de prompt." Si tu utilises `pullrequesttarget` dans tes workflows GitHub avec un agent IA, va vérifier maintenant.

SécuritéActu
1 source
Jailbreak et Prompt Injection : comment les hackers piratent les IA
2Le Big Data 

Jailbreak et Prompt Injection : comment les hackers piratent les IA

Les intelligences artificielles génératives sont désormais exposées à deux catégories d'attaques bien documentées : le jailbreak et la prompt injection. Le jailbreak consiste à contourner les règles de sécurité intégrées dans un modèle de langage, ces filtres conçus pour empêcher la génération de contenus illégaux, haineux ou dangereux. La prompt injection, elle, introduit des instructions malveillantes directement dans l'entrée du modèle, en exploitant le fait que les LLM ne distinguent pas naturellement une donnée d'une commande. Microsoft et OpenAI ont tous deux documenté de nombreux cas réels où des séquences de messages soigneusement construites, parfois sous forme de jeux de rôle ou de formulations persuasives, ont suffi à faire contourner ses garde-fous à un modèle. La prompt injection prend deux formes : directe, via le champ de saisie de l'utilisateur, ou indirecte, dissimulée dans un document externe lu par l'IA, comme un e-mail ou une page web. Ces vulnérabilités cessent d'être des curiosités techniques dès lors que les IA pilotent des systèmes critiques en entreprise. Un modèle compromis peut exfiltrer des données confidentielles, exécuter des commandes non autorisées ou propager des contenus nuisibles à grande échelle. La dangerosité tient en grande partie à l'asymétrie de l'attaque : ces techniques sont faciles à lancer, ne nécessitent aucune modification du code source, mais restent difficiles à détecter en temps réel. Les applications d'entreprise qui connectent des LLM à des bases de données, des messageries ou des outils internes représentent une surface d'attaque particulièrement exposée, car une injection indirecte peut s'activer sans intervention directe de l'attaquant sur l'interface. La combinaison des deux méthodes amplifie encore le risque : le jailbreak peut être le résultat d'une série de prompts injectés progressivement, poussant le modèle à ignorer ses instructions de base par accumulation. Ce phénomène s'inscrit dans un contexte plus large où la sécurité des systèmes IA accuse un retard structurel sur leur déploiement. Contrairement à la sécurité applicative classique, il n'existe pas encore de standard universel pour auditer ou certifier la robustesse d'un modèle face à ces attaques. Les chercheurs en sécurité, les équipes red team d'OpenAI, Google et Anthropic, ainsi que des cabinets indépendants, travaillent à établir des benchmarks fiables, mais la course entre attaque et défense reste ouverte. La vigilance humaine dans la supervision des sorties des modèles demeure, à ce stade, la mesure de protection la plus concrète disponible.

SécuritéOpinion
1 source
L’économie cachée des prompts : le marché noir de l’IA
3Le Big Data 

L’économie cachée des prompts : le marché noir de l’IA

Un marché souterrain des prompts d'intelligence artificielle s'est développé en parallèle des usages professionnels légitimes, principalement sur des plateformes de messagerie privée telles que Discord, WhatsApp et Telegram. Des milliers d'instructions conçues pour optimiser les réponses des modèles d'IA s'y échangent contre de l'argent : certains prompts se négocient quelques dollars, d'autres atteignent plusieurs centaines, lorsqu'ils promettent des performances exceptionnelles ou un avantage commercial significatif. Des marketplaces dédiées proposent des packs complets, voire des abonnements donnant accès à des bases de données régulièrement mises à jour. Les prompts les plus recherchés sont ceux qui prétendent contourner les restrictions techniques imposées par les éditeurs de modèles, ou qui permettraient de générer des milliers de publications automatisées sur les réseaux sociaux. Certaines entreprises en sont venues à traiter leurs meilleurs prompts comme de véritables secrets commerciaux. Ce phénomène repose sur une réalité technique concrète : deux utilisateurs exploitant le même modèle d'IA peuvent obtenir des résultats radicalement différents selon la façon dont leurs instructions sont formulées. Le prompt engineering, c'est-à-dire l'art de rédiger des requêtes précises et efficaces, est devenu une compétence rare et monnayable. Cette asymétrie crée une forte demande pour des recettes prêtes à l'emploi chez les millions d'utilisateurs qui ignorent encore comment tirer des résultats de qualité professionnelle des outils disponibles. Des secteurs aussi variés que le streaming, le marketing digital ou les plateformes de jeux en ligne utilisent déjà ces techniques pour personnaliser l'expérience utilisateur et automatiser leurs opérations. L'existence d'un marché parallèle révèle à la fois la valeur économique réelle de ces instructions et l'immaturité des usages grand public de l'IA générative. Cet écosystème opaque concentre cependant des dérives importantes. Les fraudes prolifèrent dans un environnement où les transactions s'effectuent sans contrôle ni traçabilité : des vendeurs commercialisent des ressources librement accessibles à des prix gonflés, proposent des abonnements fictifs et disparaissent après encaissement. Ces escroqueries visent aussi bien des amateurs que des professionnels pressés d'acquérir un avantage concurrentiel rapide. Au-delà des arnaques individuelles, certains observateurs s'inquiètent que ce marché souterrain amplifie les usages illégaux de l'IA, notamment la désinformation ou la génération de contenus frauduleux à grande échelle. L'absence de régulation spécifique sur ce segment laisse les autorités démunies face à un marché qui se structure dans les angles morts des législations existantes, à mesure que la valeur économique des modèles de langage continue de croître.

UEL'absence de cadre réglementaire spécifique aux marchés souterrains de prompts constitue un angle mort des législations européennes existantes, exposant entreprises et particuliers de l'UE aux fraudes et à l'amplification de la désinformation automatisée.

SécuritéOpinion
1 source
Le nouveau mode Lockdown de ChatGPT permet de désactiver l'accès web pour protéger contre les injections de prompt
4The Decoder 

Le nouveau mode Lockdown de ChatGPT permet de désactiver l'accès web pour protéger contre les injections de prompt

OpenAI a introduit un nouveau mode de sécurité pour ChatGPT baptisé "Lockdown Mode", ou mode verrouillé. Une fois activé, ce paramètre désactive automatiquement l'accès au web, la fonctionnalité Deep Research ainsi que l'Agent Mode, les trois vecteurs principaux par lesquels des données sensibles peuvent quitter le périmètre d'une session de travail. La mesure cible directement les attaques par injection de prompt, une technique par laquelle un contenu malveillant glissé dans un document ou une page web manipule le modèle pour qu'il exfiltre des informations confidentielles vers un tiers. La protection n'est toutefois pas totale. OpenAI reconnaît que le Lockdown Mode ne bloque pas l'attaque en amont, mais uniquement sa dernière étape, celle où les données quittent effectivement le système. En d'autres termes, un modèle peut toujours être manipulé par une injection de prompt, mais sans accès au web ni aux agents autonomes, il ne peut pas transmettre le résultat à l'extérieur. Pour les entreprises qui traitent des données réglementées, des contrats sensibles ou des informations personnelles, ce verrou représente néanmoins une couche de défense pratique et activable sans compétences techniques particulières. L'injection de prompt reste aujourd'hui l'un des problèmes non résolus les plus sérieux de l'IA générative, en particulier à mesure que les assistants gagnent en autonomie et en capacités d'action sur le web. L'émergence de modes "agents" chez OpenAI, Anthropic et Google accroît mécaniquement la surface d'attaque. Le Lockdown Mode est une réponse pragmatique plutôt qu'une solution de fond, et sa disponibilité signale qu'OpenAI commence à prendre au sérieux les usages professionnels à risque.

UELes entreprises européennes traitant des données personnelles sous RGPD peuvent activer ce mode pour réduire le risque d'exfiltration de données sensibles via des injections de prompt dans ChatGPT.

💬 C'est une bonne nouvelle pour les entreprises, mais faut pas se raconter des histoires : ça ne bloque pas l'injection elle-même, juste la fuite. Le modèle peut quand même se faire manipuler, il ne peut juste plus rien envoyer vers l'extérieur. Utile, pas suffisant.

SécuritéOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic