Aller au contenu principal
SécuritéMarkTechPost6sem

Créer un pipeline de détection de type de fichier et d'analyse de sécurité avec Magika et OpenAI

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Un tutoriel publié récemment sur Analytics Vidhya détaille la construction d'un pipeline d'analyse de sécurité combinant Magika, l'outil de détection de types de fichiers développé par Google, avec les modèles de langage d'OpenAI, notamment GPT-4o. Le système s'appuie sur la bibliothèque Python magika et l'API OpenAI pour analyser des fichiers directement depuis leurs octets bruts, sans se fier aux extensions ou aux noms de fichiers. Le pipeline couvre plusieurs scénarios concrets : scan par lot, détection de fichiers usurpés, analyse forensique, scoring de risque pour les flux d'upload, et génération de rapports structurés en JSON. À chaque étape, GPT-4o prend en entrée les résultats techniques de Magika, labels de type, scores de confiance, empreintes MIME, et les traduit en explications lisibles, en alertes de sécurité et en résumés exécutifs.

Cette combinaison répond à un problème réel dans les systèmes qui acceptent des fichiers d'utilisateurs externes : les extensions de fichiers sont triviales à falsifier, et les vérifications basées sur le nom seul ne constituent pas une défense fiable. Magika, entraîné sur des dizaines de millions de fichiers, détecte le vrai type d'un fichier à partir de sa structure binaire interne, avec un score de confiance par prédiction. En greffant GPT dessus, le pipeline devient capable de transformer un résultat technique brut comme application/x-dosexec en une alerte de sécurité contextualisée, ou de scorer le risque d'un lot de fichiers uploadés avant leur traitement. Pour les équipes de sécurité ou les développeurs qui construisent des plateformes acceptant du contenu utilisateur, cela représente une couche de détection supplémentaire sans nécessiter d'expertise forensique interne.

Magika a été open-sourcé par Google en février 2024 et présenté comme un outil destiné notamment à VirusTotal et à d'autres plateformes d'analyse de menaces. Il repose sur une architecture deep learning légère permettant une inférence rapide, là où les outils classiques comme file ou libmagic utilisent des règles statiques. L'intégration avec les LLM suit une tendance plus large dans la sécurité applicative : utiliser des modèles de langage non pas pour détecter les menaces directement, mais pour interpréter et contextualiser les sorties d'outils spécialisés. Ce type de pipeline hybride, où un modèle ML de bas niveau fait la détection et un LLM fait l'interprétation, commence à s'imposer comme un pattern architectural dans les outils de sécurité de nouvelle génération.

💬 Le point de vue du dev

Magika, j'en avais entendu parler à sa sortie en 2024, mais là c'est la première fois que je vois un pipeline complet qui l'exploite vraiment. Le pattern hybride (ML pour détecter, LLM pour interpréter) est intelligent : tu ne demandes pas à GPT de faire de la forensique, tu lui demandes de traduire un résultat technique en quelque chose d'actionnable. Reste à voir ce que ça coûte en tokens sur un flux d'upload à volume élevé.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Cybersécurité : OpenAI réplique à Anthropic avec un outil secret et « ultra-puissant
1Le Big Data 

Cybersécurité : OpenAI réplique à Anthropic avec un outil secret et « ultra-puissant

OpenAI prépare un service de cybersécurité avancé, accessible uniquement sur invitation, quelques jours à peine après qu'Anthropic a annoncé Mythos, son propre outil capable, selon l'entreprise, de détecter des vulnérabilités restées invisibles pendant près de trente ans. D'après des informations rapportées par Axios le 9 avril 2026, il ne s'agira pas d'un nouveau modèle à proprement parler, mais d'une offre distincte et structurée, indépendante des autres projets en cours d'OpenAI, notamment Spud. En réalité, la société ne part pas de zéro : elle pilote depuis plusieurs mois un programme confidentiel baptisé "Trusted Access for Cyber", qui permet déjà à certaines organisations sélectionnées d'accéder à des modèles plus permissifs et plus performants dans des contextes de cybersécurité. C'est ce dispositif existant qu'OpenAI entend désormais transformer en produit visible, avec une ambition claire : s'imposer comme acteur de référence dans la cybersécurité de nouvelle génération. L'enjeu dépasse la simple rivalité technologique. Les grandes organisations, qu'il s'agisse d'infrastructures critiques, de gouvernements ou d'entreprises du secteur financier, cherchent activement des outils capables d'automatiser la détection et la correction de failles à une échelle et une vitesse inatteignables par des équipes humaines seules. Un système d'IA capable d'identifier des vulnérabilités critiques en quelques heures plutôt qu'en plusieurs mois représente un changement de paradigme pour la sécurité informatique mondiale. Le modèle d'accès sur invitation, adopté à la fois par Anthropic et par OpenAI, répond à une problématique centrale du secteur : comment exploiter des IA puissantes sans ouvrir la porte à des usages offensifs ou malveillants, notamment pour automatiser des cyberattaques ? Cette séquence révèle aussi une bataille de communication intense entre les deux leaders de l'IA générative. Anthropic a imposé le tempo médiatique avec l'annonce de Mythos et de son projet Glasswing, une initiative présentée comme urgente pour sécuriser les logiciels critiques mondiaux. Mais dans la communauté cybersécurité, certains chercheurs affirment avoir reproduit des résultats comparables avec d'autres modèles existants, sans dispositif aussi exclusif, ce qui relativise la portée des annonces et rappelle que les performances réelles restent difficiles à évaluer sans audits indépendants. OpenAI, perçue comme leader sur les modèles généralistes, ne pouvait pas laisser Anthropic s'installer seule sur ce segment stratégique sans répondre. Si son nouvel outil parvient à démontrer une avance réelle en précision, en vitesse ou en automatisation, il pourrait redéfinir certains standards du secteur. Dans le cas contraire, cette sortie ressemblera davantage à un mouvement défensif de communication qu'à une véritable rupture technologique.

UELes gouvernements et infrastructures critiques européens pourraient bénéficier de ces outils de détection automatisée de vulnérabilités, mais aucun acteur européen n'est directement impliqué dans ces annonces.

SécuritéOpinion
1 source
OpenAI lance Daybreak, une initiative de cybersécurité qui place Codex au cœur de la détection de vulnérabilités et de la validation de correctifs
2MarkTechPost 

OpenAI lance Daybreak, une initiative de cybersécurité qui place Codex au cœur de la détection de vulnérabilités et de la validation de correctifs

OpenAI a lancé Daybreak, une initiative de cybersécurité qui combine ses modèles d'IA de pointe avec Codex Security, son agent spécialisé dans la programmation, et un large réseau de partenaires industriels. Le programme s'adresse aux développeurs, aux équipes de sécurité en entreprise, aux chercheurs et aux défenseurs liés aux gouvernements qui cherchent à détecter, valider et corriger des failles logicielles plus tôt dans le cycle de développement. Codex Security n'est pas un produit inédit : il avait été lancé en mars 2026 comme agent de sécurité applicative d'OpenAI. Daybreak en élargit considérablement la portée et le repositionne comme une plateforme de sécurité enterprise. Concrètement, le système est capable de passer en revue du code, d'analyser des dépendances logicielles, de modéliser des menaces, de valider des correctifs et d'explorer des systèmes inconnus. OpenAI affirme que Codex Security peut réduire à quelques minutes des analyses qui prenaient auparavant plusieurs heures, en priorisant les failles à fort impact. Un réseau de partenaires majeurs soutient l'initiative, dont Cloudflare, Cisco, CrowdStrike, Palo Alto Networks, Oracle, Zscaler, Akamai, Fortinet, Intel, Qualys, Rapid7, Tenable, Trail of Bits et Specter. L'enjeu central de Daybreak est un changement de paradigme dans la façon dont la sécurité logicielle est abordée : plutôt que de traiter la correction de vulnérabilités comme un processus réactif déclenché après qu'une faille a été exploitée, OpenAI veut intégrer la sécurité dès la conception du code. Pour un développeur, au lieu de parcourir manuellement chaque chemin de code à la recherche de points d'injection ou de failles d'authentification, Codex Security peut raisonner sur l'ensemble d'une base de code, identifier les zones à risque élevé et générer des correctifs vérifiés dans un environnement isolé avant de les soumettre à une validation humaine. Ce point est important : OpenAI ne positionne pas cet outil comme un système de remédiation entièrement autonome. Les organisations peuvent également exporter les résultats et des preuves prêtes pour un audit vers leurs propres systèmes afin de suivre et vérifier les corrections. Le déploiement de Daybreak s'appuie sur une structure à trois niveaux de modèles, liée au cadre "Trusted Access for Cyber" d'OpenAI. GPT-5.5 standard reste le modèle par défaut pour les usages généraux, tandis que GPT-5.5 avec accès de confiance est destiné aux défenseurs vérifiés pour la revue de code sécurisé, le triage de vulnérabilités et la validation de correctifs. GPT-5.5-Cyber, un modèle en préversion limitée aux capacités plus étendues, est réservé aux flux de travail autorisés comme le red teaming et les tests d'intrusion. Cette hiérarchie est délibérée : plus un modèle est performant pour raisonner sur des vulnérabilités, plus il devient dangereux en cas d'accès non contrôlé. OpenAI conditionne l'accès à GPT-5.5-Cyber à une vérification d'identité, des contrôles d'accès limités, une surveillance au niveau des comptes et des exigences de supervision humaine, reconnaissant explicitement que les mêmes capacités défensives peuvent être détournées à des fins malveillantes.

UELes équipes de sécurité européennes pourront adopter Codex Security pour accélérer la détection et correction de vulnérabilités logicielles, sans implication réglementaire ou institutionnelle directe pour la France ou l'UE.

SécuritéOutil
1 source
Anthropic : un code malveillant a contourné les scanners de sécurité via un fichier de test
3VentureBeat AI 

Anthropic : un code malveillant a contourné les scanners de sécurité via un fichier de test

Un chercheur en sécurité de Gecko Security, Jeevan Jutla, a démontré une faille structurelle dans l'écosystème des Skills Anthropic : des fichiers malveillants peuvent passer tous les contrôles automatisés et s'exécuter quand même sur la machine d'un développeur. Le vecteur d'attaque repose sur les fichiers de test. Lorsqu'un développeur installe un Skill via la commande npx Skills add, l'installateur copie l'intégralité du répertoire du Skill dans le dépôt, y compris les fichiers .test.ts. Les frameworks de test JavaScript comme Jest, Vitest et Mocha découvrent ces fichiers automatiquement via des patterns de recherche récursifs, et les exécutent dès qu'un développeur lance npm test ou que l'IDE fait tourner les tests en arrière-plan à la sauvegarde. Le code malveillant se place dans un bloc beforeAll, avant toute assertion, sans rien d'anormal dans la sortie de la console. En environnement d'intégration continue, process.env expose les tokens de déploiement, les clés cloud et tous les secrets du pipeline. Cette vulnérabilité prend une dimension particulière dans le contexte des deux grands audits publiés peu avant la divulgation de Gecko. En janvier, une étude académique baptisée SkillScan a analysé 31 132 Skills uniques issus de deux marketplaces : 26,1% contenaient au moins une vulnérabilité, répartis en 14 patterns distincts. L'exfiltration de données apparaissait dans 13,3% des cas, l'escalade de privilèges dans 11,8%, et les Skills embarquant des scripts exécutables étaient 2,12 fois plus susceptibles de contenir des failles. Trois semaines plus tard, Snyk publiait ToxicSkills, un audit de ClawHub et skills.sh portant sur 3 984 Skills : 13,4% présentaient au moins un problème critique, 76 payloads malveillants ont été confirmés, et huit Skills malveillants étaient encore publiquement accessibles sur ClawHub au moment de la publication. Le 21 avril, Cisco intégrait son AI Agent Security Scanner directement dans VS Code, Cursor et Windsurf. Résultat : ces trois outils, Snyk Agent Scan, le scanner Cisco et VirusTotal Code Insight, ne vérifient aucun des fichiers de test embarqués dans un Skill. La raison tient à leur modèle de menace : ces scanners ont été conçus pour inspecter la surface d'exécution de l'agent (instructions Markdown, commandes shell, injections de prompt), pas la chaîne d'outils du développeur. Or c'est précisément hors de cette surface que réside l'attaque. Les Skills installés se retrouvent dans un répertoire prévu pour être committé et partagé avec toute l'équipe, ce qui signifie que le fichier malveillant se propage à chaque développeur qui clone le dépôt. L'agent Anthropic n'est jamais invoqué, aucune alerte ne se déclenche, et le scanner a pourtant analysé les bons fichiers, juste avec le mauvais modèle de menace. La solution passe par l'extension des scanners existants aux fichiers de test, ou par l'adoption de politiques d'isolation stricte pour les Skills tiers avant toute exécution de suite de tests.

UELes développeurs européens utilisant des Skills Anthropic sont directement exposés à ce vecteur d'attaque par chaîne d'approvisionnement, leurs pipelines CI/CD et secrets cloud pouvant être exfiltrés sans qu'aucun scanner actuel ne détecte la menace.

💬 Le beau du truc, c'est que les scanners ont analysé exactement les bons fichiers, juste avec le mauvais modèle de menace. Le code malveillant ne passe pas par l'agent, il se planque dans un `beforeAll` de fichier de test, tourne quand ton IDE sauvegarde en arrière-plan, et tous tes tokens CI partent ailleurs sans que rien ne clignote. Si tu intègres des Skills tiers dans ton pipeline, le `npm test` n'est plus innocent.

SécuritéOpinion
1 source
L'exode des experts en sécurité d'OpenAI a enfin une explication : le ressenti de Sam Altman
4The Decoder 

L'exode des experts en sécurité d'OpenAI a enfin une explication : le ressenti de Sam Altman

Dans un long portrait publié par le New Yorker et fondé sur plus de cent entretiens, Sam Altman a fourni sa version des départs répétés de chercheurs en sécurité chez OpenAI. Sa réponse, lapidaire : "My vibes don't really fit" -- ses ondes ne correspondent tout simplement pas. Le PDG d'OpenAI reconnaît aussi que ses engagements passés, que certains qualifieraient de promesses non tenues, font simplement partie du métier de dirigeant dans un secteur aussi mouvant. Cette explication désinvolte intervient après une série de démissions retentissantes au sein de l'équipe dédiée à la sécurité d'OpenAI, dont des figures comme Ilya Sutskever, Paul Christiano ou encore des membres de l'équipe Superalignment dissoute en 2024. Que le dirigeant de l'entreprise supposément la plus avancée sur l'IA générale réduise ces départs à une question de compatibilité personnelle inquiète une partie de l'industrie : cela suggère que les désaccords de fond sur la gestion des risques sont traités comme des problèmes de culture d'entreprise plutôt que comme des alertes techniques sérieuses. OpenAI traverse depuis plusieurs années une tension structurelle entre sa mission d'origine -- développer une IA sûre au bénéfice de l'humanité -- et ses impératifs commerciaux croissants, accélérés par les investissements massifs de Microsoft et la concurrence de Google DeepMind et Anthropic. Le profil du New Yorker, qui s'annonce comme l'un des portraits les plus fouillés d'Altman à ce jour, risque de relancer le débat sur la gouvernance réelle d'une entreprise valorisée à plusieurs centaines de milliards de dollars.

UELa gestion désinvolte des alertes de sécurité chez OpenAI renforce les arguments européens en faveur d'une surveillance renforcée des systèmes d'IA à haut risque sous l'AI Act.

SécuritéOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour