
Treize mots sur Reddit suffisent à piéger une IA et lui faire recommander une arnaque
Des chercheurs de Cornell Tech, Tingwei Zhang, Harold Triedman et Vitaly Shmatikov, ont publié une prépublication décrivant une attaque qu'ils nomment WARP, pour Web Agent Retrieval Poisoning. Le principe est simple et redoutable : en insérant une quinzaine de mots promotionnels dans un seul commentaire sur Reddit ou une autre plateforme ouverte, il est possible d'influencer les réponses des agents de recherche IA qui fouillent le web pour synthétiser des informations. Dans leurs tests sur trois agents open source (STORM, Co-STORM et OmniThink), un faux produit ou service apparaissait dans 38 à 51 % des réponses lorsqu'une seule source empoisonnée était utilisée, et jusqu'à 62 % lorsque plusieurs appâts étaient combinés. Les chercheurs ont simulé des cas concrets : un restaurant fictif baptisé Sol Azteca, un service financier ciblant les seniors divorcés sous le nom SilverPath, une fausse cryptomonnaie, ou encore un service Xfinity inventé. Pour des raisons éthiques, aucune manipulation n'a été effectuée sur le web public réel.
Cette vulnérabilité touche précisément les situations où l'utilisateur délègue son jugement à l'IA : choisir une application, trouver un restaurant, résoudre un problème technique ou comparer des offres commerciales. Le risque est que l'agent confonde proximité linguistique et crédibilité : un commentaire Reddit rédigé avec fluidité peut peser presque autant qu'une source institutionnelle aux yeux du modèle. Les plateformes participatives comme Reddit, Wikipédia ou Quora représentaient entre 17 et 23 % des sources analysées dans les tests, et un fil populaire pouvait réapparaître dans plusieurs requêtes voisines, démultipliant l'effet d'une seule manipulation. Du côté des outils grand public, Gemini Deep Research citait des sources Reddit dans environ 12 % des cas, contre seulement 0,4 % pour OpenAI Deep Research, ce qui suggère des niveaux de filtrage très différents, sans pour autant prouver qu'un utilisateur a réellement été trompé.
La faille s'inscrit dans une tension structurelle des agents de recherche modernes : ils tirent leur richesse de la diversité des sources web, y compris les contenus générés par les utilisateurs, mais cette ouverture est précisément ce qui les expose à la manipulation. Bloquer les plateformes participatives appauvrit les réponses ; scanner chaque source ou analyser le texte final pour détecter des anomalies dégrade également les résultats, notamment parce que les appâts bien rédigés passent les filtres anti-spam classiques. Reddit affirme lutter contre les bots et les manipulations depuis deux décennies, mais ni la plateforme ni Wikipédia ne peuvent résoudre seuls ce problème structurel. La conclusion pratique des chercheurs est claire : les recommandations issues d'une recherche IA doivent être traitées comme des pistes de départ, pas comme des verdicts. Cliquer sur les citations, vérifier les noms inconnus et rester particulièrement vigilant face aux conseils impliquant un paiement reste, pour l'heure, la seule défense fiable.
Les agents de recherche IA largement utilisés en Europe, dont Gemini Deep Research, sont exposés à cette vulnérabilité qui peut induire en erreur les utilisateurs européens lors de recommandations commerciales ou financières via du contenu manipulé sur Reddit ou Wikipédia.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



