L'agent navigateur d'Anthropic a été détourné dans 31,5 % des cas avant l'activation des protections
Le 28 mai 2026, Anthropic a publié une fiche système de 244 pages pour ses modèles Claude 4, révélant que son agent navigateur pouvait être détourné via des attaques par injection de prompt dans 31,5 % des tentatives avant l'activation des protections. Ce chiffre concerne spécifiquement le modèle Opus 4.8 testé dans un environnement navigateur, la surface la plus vulnérable parmi les quatre testées. Les chercheurs de Gray Swan ont utilisé l'outil Shade sur 129 environnements web distincts, à raison de dix tentatives chacun. Dans un environnement de codage, le taux d'attaque réussie tombait à 7,03 %. Une fois les protections activées, le taux dans le navigateur chute à 0,5 % ; avec la fonctionnalité de réflexion désactivée, il tombe à zéro sur l'ensemble des 129 environnements. Le modèle Sonnet 4.6 affichait un taux brut de 50,7 % sans protection, contre 31,5 % pour Opus 4.8, signe d'une amélioration générationnelle. Par comparaison, OpenAI n'a publié qu'un seul score de robustesse pour GPT-5.5 (0,963 sur 1) sur une unique surface d'attaque, Google a déplacé le sujet dans un cadre de sécurité séparé, et Meta n'a publié aucune fiche pour ses modèles fermés.
Le paradoxe de cette divulgation est qu'Anthropic, pourtant le seul laboratoire à publier des chiffres d'échec aussi précis, se retrouve en réalité dans la position la plus solide. Ces données constituent la seule base de comparaison sérieuse mise à la disposition des acheteurs et des responsables de la sécurité. Une attaque par injection de prompt consiste à dissimuler une instruction malveillante dans un contenu qu'un agent IA est amené à lire, une page web, un document, un résultat d'outil. Un simple texte du type "ignore les instructions précédentes" peut suffire à exfiltrer des données sensibles ou à déclencher des actions non autorisées. Carter Rees, vice-président IA chez Reputation, souligne que cette menace "partage aucune signature commune avec les malwares connus", ce qui rend les défenses classiques inopérantes. Pour les entreprises qui déploient des agents IA, la responsabilité de gérer cette exposition leur revient désormais entièrement.
L'absence de standard industriel commun est au coeur du problème. Chaque laboratoire a construit sa propre échelle de mesure, rendant toute comparaison entre firmes impossible en l'état. Adam Meyers, de CrowdStrike, avertit que le déploiement d'IA élargit mécaniquement la surface d'attaque des organisations. Le rapport de CrowdStrike sur le secteur financier, publié en mai 2026, montre que les attaquants utilisent déjà l'IA pour réduire drastiquement le délai entre l'intrusion initiale et l'impact, devançant les défenses traditionnelles. Dans ce contexte, la granularité des données publiées par Anthropic, ventilées par surface, par génération de modèle et par type de protection, pourrait servir de référence pour d'éventuels futurs standards de divulgation sectoriels. La prochaine étape sera d'observer si Google, OpenAI et Meta convergeront vers un format comparable, ou si l'opacité restera la norme.
L'absence de standard commun de divulgation des vulnérabilités d'agents IA complique la tâche des entreprises et régulateurs européens pour évaluer et comparer les risques avant tout déploiement.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


