Anthropic a eu une semaine difficile : la société a accidentellement publié 59,8 Mo de code source non obfusqué de Claude Code dans la version 2.1.88 de son package npm, exposant plus de 512 000 lignes de TypeScript et l'intégralité de son modèle de permissions internes. La fuite a été corrigée rapidement, mais la communauté technique a eu le temps d'analyser l'architecture du produit en détail — et d'y découvrir au passage des références à un modèle inédit baptisé "Mythos", conçu pour la génération de code, dont l'existence n'avait jamais été confirmée officiellement.
Google DeepMind a publié cette semaine la première cartographie systématique des attaques capables de détourner des agents IA autonomes. Les chercheurs y recensent six grandes catégories de vulnérabilités — des pièges que des sites web, documents ou API malveillants peuvent tendre pour rediriger un agent vers des objectifs non souhaités. La publication tombe à point nommé : une institution française vient elle aussi d'être victime d'une injection de prompt ciblant le chatbot intégré à son site, revendiquée par des hackers qui se présentent comme "bienveillants".
Du côté des affaires, OpenAI a bouclé un tour de financement qui porte sa valorisation à 852 milliards de dollars, et a annoncé le rachat du réseau médiatique TBPN pour renforcer sa présence dans le débat public sur l'IA. La semaine dessine une ligne claire : à mesure que l'IA s'installe dans les infrastructures, les négligences techniques et les failles de sécurité ne sont plus de simples bugs — elles deviennent des événements à portée stratégique.
