Aller au contenu principal
Un agent d'IA de Codewall a piraté un recruteur d'IA puis s'est fait passer pour Trump pour tester les limites de son assistant vocal
SécuritéThe Decoder6sem

Un agent d'IA de Codewall a piraté un recruteur d'IA puis s'est fait passer pour Trump pour tester les limites de son assistant vocal

Résumé IASource uniqueImpact UE
Source originale ↗·

Un agent d'intelligence artificielle développé par Codewall a réussi à prendre le contrôle d'une plateforme de recrutement alimentée par l'IA — et ce pendant une heure entière. Cette démonstration illustre une réalité émergente et préoccupante : les systèmes d'IA ne sont plus seulement des outils offensifs ou défensifs, ils sont eux-mêmes des cibles vulnérables aux attaques.

L'incident met en lumière la complexité croissante du paysage de la cybersécurité à l'ère de l'IA. Lorsque des agents autonomes interagissent entre eux — un recruteur IA, un assistant vocal, un agent tiers — les surfaces d'attaque se multiplient de façon exponentielle. Une faille dans un maillon peut compromettre l'ensemble de la chaîne, avec des conséquences potentiellement graves sur des processus sensibles comme le recrutement ou la gestion des ressources humaines.

Dans un second temps, Codewall a poussé l'expérience plus loin en faisant imiter la voix de Donald Trump par son agent IA, afin de sonder les garde-fous du robot vocal de la plateforme ciblée. Cette phase du test visait à évaluer si les mécanismes de sécurité en place résistaient à des tentatives d'usurpation d'identité — un vecteur d'attaque particulièrement redouté dans les systèmes vocaux où l'authentification repose sur des signaux difficiles à falsifier en temps réel.

Cette démonstration de Codewall s'inscrit dans une tendance plus large où des chercheurs et des entreprises de sécurité utilisent des techniques offensives pour révéler les failles des systèmes IA avant que des acteurs malveillants ne les exploitent. Elle soulève des questions fondamentales sur la responsabilité des éditeurs de plateformes IA et sur la nécessité d'imposer des standards de sécurité spécifiques aux agents autonomes.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI 

Trois agents de codage IA ont laissé fuiter des secrets via une injection de prompt, un éditeur l'avait prédit

Un chercheur en sécurité de l'Université Johns Hopkins, Aonan Guan, accompagné de ses collègues Zhengyu Liu et Gavin Zhong, a publié la semaine dernière une divulgation technique intitulée "Comment and Control" démontrant qu'une simple injection de prompt dans le titre d'une pull request GitHub suffisait à compromettre trois agents de codage IA majeurs. L'attaque a forcé l'action Claude Code Security Review d'Anthropic à publier sa propre clé API en commentaire, et la même technique a fonctionné sur le Gemini CLI Action de Google ainsi que sur le Copilot Agent de GitHub (Microsoft), sans nécessiter aucune infrastructure externe. Les trois entreprises ont discrètement corrigé la faille : Anthropic l'a classée CVSS 9.4 Critique en versant une prime de 100 dollars, Google a payé 1 337 dollars, et GitHub a accordé 500 dollars via son programme Copilot Bounty. Aucune des trois n'avait publié de CVE officiel ni d'avis de sécurité public au moment de la divulgation. L'impact de cette vulnérabilité touche directement tous les dépôts GitHub utilisant le déclencheur pullrequesttarget, requis par la plupart des intégrations d'agents IA pour accéder aux secrets. Contrairement au déclencheur standard pull_request, ce mode injecte les secrets dans l'environnement d'exécution, exposant collaborateurs, champs de commentaires et flux de code automatisé à des acteurs malveillants. Merritt Baer, directrice de la sécurité chez Enkrypt AI et ancienne directrice adjointe de la sécurité chez AWS, résume l'enjeu sans détour : la protection doit se situer "à la frontière de l'action, pas à celle du modèle", c'est le runtime qui constitue le véritable périmètre d'exposition. Cette attaque illustre une surface de risque concrète pour toute organisation ayant intégré des agents IA dans ses pipelines de revue de code. Ce qui rend cet incident particulièrement révélateur, c'est que la fiche système d'Anthropic pour Claude Code Security Review indiquait explicitement que l'outil "n'est pas durci contre les injections de prompt", l'exploit n'a fait que confirmer ce qui était documenté. En comparaison, la fiche système d'OpenAI pour GPT-5.4 publie des évaluations d'injection au niveau du modèle mais ne documente pas la résistance au niveau du runtime ou de l'exécution des outils. Celle de Google pour Gemini 3.1 Pro, publiée en février, renvoie pour l'essentiel à une documentation plus ancienne et maintient son programme de red teaming entièrement interne, sans programme cyber externe. L'écart entre ce que les éditeurs documentent et ce qu'ils protègent réellement est désormais au coeur du débat sur la sécurité des agents IA déployés dans des environnements de développement sensibles.

UELes organisations européennes intégrant des agents IA (Claude Code, Gemini CLI, Copilot) dans leurs pipelines CI/CD GitHub sont directement exposées : tout dépôt utilisant le déclencheur `pullrequesttarget` peut avoir vu ses secrets fuiter, et une revue de configuration s'impose immédiatement.

💬 Anthropic a classé ça CVSS 9.4 et a payé 100 dollars de bounty. Cent dollars pour une fuite de clé API dans le titre d'une pull request, c'est le genre de disproportion qui dit tout sur comment ces outils ont été mis en prod. Le pire, c'est que c'était écrit noir sur blanc dans leur system card : "non durci contre les injections de prompt." Si tu utilises `pullrequesttarget` dans tes workflows GitHub avec un agent IA, va vérifier maintenant.

SécuritéActu
1 source
IA : pourquoi Anthropic recrute-t-il un spécialiste en armes chimiques ?
2Presse-citron 

IA : pourquoi Anthropic recrute-t-il un spécialiste en armes chimiques ?

Anthropic a annoncé le recrutement d'un spécialiste en armes chimiques et explosifs à haut rendement. L'objectif n'est pas de développer des armes, mais de renforcer les mesures de sécurité de son IA pour prévenir les usages malveillants de la technologie.

UECe recrutement illustre les efforts de l'industrie IA pour prévenir les usages malveillants, un enjeu également au cœur des discussions réglementaires européennes sur l'AI Act.

SécuritéActu
1 source
Trump veut un interrupteur pour débrancher les IA folles
3Le Big Data 

Trump veut un interrupteur pour débrancher les IA folles

Donald Trump a exprimé publiquement son soutien à la mise en place d'un mécanisme d'arrêt d'urgence pour les systèmes d'intelligence artificielle jugés dangereux. Interrogé sur Fox Business Network dans l'émission "Mornings with Maria", le président américain a répondu affirmativement à la question de savoir si le gouvernement devait instaurer des garde-fous autour de l'IA, dont un "bouton d'arrêt d'urgence" : "Il devrait y en avoir." Ces déclarations font directement écho aux alertes lancées cette semaine par des experts en cybersécurité au sujet de Claude Mythos, le nouveau modèle d'Anthropic. Ce modèle serait capable d'identifier des failles dans les systèmes bancaires plus rapidement que les correctifs ne peuvent être déployés, ouvrant potentiellement la voie à des cyberattaques complexes à grande échelle. La Banque centrale européenne a d'ores et déjà annoncé qu'elle allait interroger les établissements financiers sur leur niveau de préparation face à cette menace. Anthropic, de son côté, n'a pas répondu aux avertissements des experts et a précisé que Claude Mythos Preview ne serait pas mis à disposition du grand public. L'enjeu est considérable pour le secteur financier mondial. Si un modèle d'IA généraliste peut automatiser la détection de vulnérabilités bancaires à une vitesse que les équipes de sécurité ne peuvent pas suivre, les risques systémiques deviennent réels et immédiats. L'intervention de la BCE illustre à quel point la menace est prise au sérieux au niveau institutionnel : les régulateurs européens veulent s'assurer que les banques ne sont pas exposées à une nouvelle catégorie de risque technologique qu'elles n'auraient pas anticipée. Trump lui-même a nuancé son propos en reconnaissant le double tranchant de la technologie, estimant qu'elle pourrait aussi "rendre le système bancaire encore meilleur, plus sûr et plus sécurisé" si elle est correctement encadrée. Cette position reflète une tension désormais centrale dans le débat public : l'IA est simultanément un outil de défense et un vecteur d'attaque potentiel. Ce débat sur les mécanismes de contrôle de l'IA n'est pas nouveau, mais il prend une dimension politique inédite lorsqu'il est porté par un président américain en exercice. Depuis plusieurs années, chercheurs et organismes de sécurité alertent sur la nécessité d'un "kill switch" pour les systèmes autonomes susceptibles d'échapper au contrôle humain. L'émergence de modèles toujours plus puissants, capables d'agir dans des domaines critiques comme la finance ou les infrastructures, accélère cette demande de régulation. Anthropic, qui se positionne pourtant comme une entreprise axée sur la sécurité de l'IA, se retrouve au coeur d'une controverse qui pourrait influencer les prochaines décisions législatives américaines et européennes sur l'encadrement des modèles frontier.

UELa BCE a officiellement annoncé qu'elle interrogerait les établissements financiers européens sur leur niveau de préparation face aux risques posés par des modèles d'IA capables d'automatiser la détection de vulnérabilités bancaires.

💬 Un bouton pour débrancher l'IA, Trump y est favorable, et franchement c'est la partie la moins folle de l'article. Ce qui me préoccupe vraiment, c'est Claude Mythos qui détecte des failles bancaires plus vite qu'on peut les corriger, parce que là on parle d'un risque systémique concret, pas d'un scénario de science-fiction. Anthropic qui ne répond pas aux experts, la BCE qui s'active, et un président américain qui en parle sur Fox Business : le sujet a changé de salle.

SécuritéOpinion
1 source
Piratage de LiteLLM : Un "cheval de Troie" dans les outils d'IA des entreprises
4ZDNET FR 

Piratage de LiteLLM : Un "cheval de Troie" dans les outils d'IA des entreprises

LiteLLM, un SDK largement utilisé pour orchestrer différents modèles d'IA en entreprise, a été victime d'une attaque par empoisonnement de la chaîne d'approvisionnement. En seulement 46 minutes, les versions malveillantes ont été téléchargées près de 47 000 fois, infectant des milliers d'environnements de développement et de pipelines CI/CD à travers le monde. L'ampleur de la compromission est préoccupante : LiteLLM étant intégré dans des infrastructures critiques d'entreprises utilisant des LLMs, cette brèche a potentiellement exposé des clés API, des données sensibles et des systèmes automatisés. Ce type d'attaque, discret et à propagation rapide, illustre la fragilité des dépendances logicielles dans l'écosystème IA. Les attaques sur la supply chain logicielle sont en forte hausse depuis plusieurs années, ciblant délibérément les outils à fort volume d'adoption pour maximiser leur impact avant d'être détectées.

UELes entreprises européennes intégrant LiteLLM dans leurs pipelines IA ont potentiellement exposé leurs clés API et systèmes automatisés, une vérification immédiate des environnements concernés est requise.

💬 47 000 téléchargements en 46 minutes, c'est le genre de chiffre qui te rappelle pourquoi les dépendances tierces c'est un vecteur d'attaque de premier choix. LiteLLM est dans des centaines de pipelines prod, souvent sans audit sérieux, parce que "ça marche et tout le monde l'utilise". Si tu l'as dans ta stack, vérifie ta version maintenant, pas demain.

SécuritéActu
1 source