Aller au contenu principal
Fastino Labs publie en open source GLiGuard : un modèle de modération 300M paramètres aussi précis que des modèles 23 à 90 fois plus grands
SécuritéMarkTechPost6sem· 2 min de lecture

Fastino Labs publie en open source GLiGuard : un modèle de modération 300M paramètres aussi précis que des modèles 23 à 90 fois plus grands

Source originale ↗·

Fastino Labs a publié GLiGuard, un modèle open-source de modération de contenu doté de 300 millions de paramètres, conçu pour sécuriser les applications basées sur des LLM en production. Sur neuf benchmarks de sécurité, GLiGuard atteint ou dépasse la précision de modèles 23 à 90 fois plus volumineux, comme LlamaGuard4 (12 milliards de paramètres), WildGuard (7 milliards) ou ShieldGemma (27 milliards), tout en fonctionnant jusqu'à 16 fois plus vite. En une seule passe, le modèle exécute simultanément quatre tâches de modération : classification de sécurité des prompts et des réponses, détection de 11 stratégies de contournement (injection de prompt, roleplay, social engineering...), analyse de la toxicité selon 8 catégories, et identification des contenus sexuels. Le modèle et ses poids sont disponibles sous licence Apache 2.0.

L'enjeu est directement opérationnel : dans tout système LLM en production, le modèle de garde-fous s'exécute à chaque requête utilisateur et à chaque réponse du modèle, à chaque tour de conversation. Avec les architectures actuelles de type décodeur, cette latence s'accumule et le coût se multiplie. GLiGuard résout ce problème en adoptant une architecture encodeur, qui traite l'intégralité du texte d'entrée en une seule passe et retourne une étiquette de classification directement, sans générer de tokens séquentiellement. Concrètement, ajouter des dimensions d'évaluation supplémentaires n'augmente pas la latence, puisque toutes les tâches et leurs labels candidats font partie de l'entrée elle-même. Pour les développeurs qui déploient des agents IA capables de naviguer sur le web, d'exécuter du code ou d'interagir avec des services externes, cette réduction de latence et de coût peut changer fondamentalement la viabilité économique d'une mise en production sécurisée.

Le problème de fond que GLiGuard cherche à résoudre illustre une tension structurelle dans l'industrie LLM : les modèles de garde-fous ont été construits sur des architectures décodeur par commodité, parce qu'ils pouvaient interpréter des instructions en langage naturel et s'adapter à de nouvelles politiques de sécurité sans réentraînement. Mais la modération de contenu est fondamentalement un problème de classification, pas de génération de texte, et les architectures décodeur ne sont pas optimisées pour cela. La publication de GLiGuard s'inscrit dans une tendance plus large de spécialisation des modèles : plutôt qu'utiliser un même LLM généraliste pour tout, les équipes en production découpent les tâches selon leurs contraintes propres. Fastino Labs positionne GLiGuard comme une brique d'infrastructure plutôt qu'un produit fini, ce qui suggère une stratégie d'adoption par les développeurs avant une éventuelle offre commerciale autour de la vitesse et du coût à l'échelle.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Microsoft publie un toolkit open source pour sécuriser les agents IA en production
1AI News 

Microsoft publie un toolkit open source pour sécuriser les agents IA en production

Microsoft a publié un toolkit open-source destiné à sécuriser les agents d'intelligence artificielle en temps réel au sein des environnements d'entreprise. Baptisé runtime security toolkit, cet outil s'intercale entre le modèle de langage et le réseau d'entreprise pour surveiller, évaluer et bloquer les actions des agents autonomes au moment précis où ils tentent de les exécuter. Concrètement, lorsqu'un agent IA déclenche un appel vers un outil externe, une base de données, un pipeline CI/CD ou un dépôt cloud, le toolkit intercepte la requête, la compare à un ensemble de règles de gouvernance centralisées, et bloque l'action si elle enfreint la politique définie. Un agent autorisé uniquement à consulter un inventaire qui tenterait de passer une commande d'achat se verrait immédiatement arrêté, et l'événement serait journalisé pour révision humaine. L'enjeu est considérable pour les équipes de sécurité et les développeurs. Les systèmes d'IA d'entreprise ne se contentent plus de répondre à des questions : ils exécutent du code, envoient des e-mails, modifient des fichiers et interagissent avec des API critiques sans intervention humaine directe. Les méthodes traditionnelles, analyse statique du code, scan de vulnérabilités avant déploiement, sont structurellement inadaptées aux modèles de langage non-déterministes. Une seule attaque par injection de prompt ou une hallucination mal orientée peut suffire à écraser une base de données ou exfiltrer des données clients. Le toolkit de Microsoft découple la politique de sécurité de la logique applicative : les développeurs n'ont plus à hardcoder des règles de sécurité dans chaque prompt, et les équipes sécurité disposent d'une piste d'audit vérifiable pour chaque décision autonome du modèle. Le choix de publier ce toolkit sous licence open-source n'est pas anodin. Les développeurs construisent aujourd'hui des workflows autonomes en combinant des bibliothèques open-source, des frameworks variés et des modèles tiers, Anthropic, Meta, Mistral ou d'autres. Un outil propriétaire lié à l'écosystème Microsoft aurait probablement été contourné au profit de solutions non vérifiées, sous pression des délais. En ouvrant le code, Microsoft permet à n'importe quelle organisation, qu'elle tourne sur des modèles locaux, sur Azure ou sur des architectures hybrides, d'intégrer ces contrôles de gouvernance sans dépendance fournisseur. L'ouverture invite aussi la communauté cybersécurité à contribuer et à empiler des outils commerciaux, tableaux de bord, intégrations de réponse aux incidents, par-dessus cette fondation commune, accélérant la maturité de tout l'écosystème. À mesure que les agents autonomes s'imposent dans les entreprises, ce type de couche de sécurité d'infrastructure pourrait devenir un standard incontournable.

UELes entreprises européennes déployant des agents IA peuvent adopter cet outil open-source pour répondre aux exigences de gouvernance et de traçabilité imposées par l'AI Act.

SécuritéOpinion
1 source
Mend publie un cadre de gouvernance de la sécurité IA : inventaire des ressources, classification des risques, sécurité de la chaîne d'approvisionnement et modèle de maturité
2MarkTechPost 

Mend publie un cadre de gouvernance de la sécurité IA : inventaire des ressources, classification des risques, sécurité de la chaîne d'approvisionnement et modèle de maturité

Mend, spécialiste de la sécurité applicative, a publié un guide pratique intitulé "AI Security Governance: A Practical Framework for Security and Development Teams", destiné aux équipes de sécurité et de développement confrontées à l'essor incontrôlé des outils d'IA en entreprise. Le document part d'un constat précis : dans la quasi-totalité des organisations, les développeurs adoptent des outils comme GitHub Copilot ou des API tierces (OpenAI, Google Gemini) avant même que les équipes sécurité n'en aient connaissance. Le framework propose une réponse structurée en quatre piliers : inventaire des actifs IA, système de classification par niveau de risque, contrôle d'accès et traçabilité de la chaîne d'approvisionnement des modèles. Le coeur du dispositif repose sur un système de score allant de 5 à 15 points, évalué sur cinq dimensions : sensibilité des données, autorité décisionnelle, accès aux systèmes, exposition externe et origine dans la chaîne d'approvisionnement. Selon ce score, chaque déploiement IA est classé en Tier 1 (risque faible, revue standard), Tier 2 (risque modéré, audits comportementaux trimestriels) ou Tier 3 (risque élevé, évaluation complète, surveillance continue et plan de réponse aux incidents obligatoire). Ce cadre répond à un problème structurel croissant : le "shadow AI", c'est-à-dire les outils d'IA utilisés en production sans validation de la sécurité. Mend insiste sur le fait que la découverte de ces outils doit être non punitive, afin que les développeurs les déclarent sans crainte. Le framework souligne également que le niveau de risque d'un modèle peut changer radicalement sans modification de son code : connecter un modèle précédemment isolé à une base de données de production en écriture suffit à le faire passer du Tier 1 au Tier 3. Pour les sorties de modèles, le guide impose un filtrage actif des données réglementées (numéros de sécurité sociale, cartes bancaires, clés API) et exige que le code généré par IA soit traité comme une entrée non fiable, soumis aux mêmes analyses SAST, SCA et détection de secrets que le code écrit par des humains. Le troisième volet majeur concerne la chaîne d'approvisionnement des modèles. Mend introduit le concept d'AI Bill of Materials (AI-BOM), extension du SBOM traditionnel appliqué aux artefacts de modèles, aux jeux de données d'entraînement, aux entrées de fine-tuning et à l'infrastructure d'inférence. L'idée centrale est qu'intégrer un modèle tiers revient à hériter de la posture de sécurité de ceux qui l'ont entraîné. Ce framework s'inscrit dans un mouvement plus large de régulation de l'IA en entreprise, porté à la fois par des exigences réglementaires émergentes (EU AI Act, directives NIST) et par la multiplication des incidents liés à des modèles mal configurés ou mal cloisonnés. Mend positionne ce guide comme un point de départ accessible, non comme un programme de maturité avancée, ce qui le rend particulièrement pertinent pour les organisations qui débutent leur gouvernance IA.

UELe cadre s'aligne explicitement sur les exigences de l'EU AI Act en matière de classification des risques IA et de documentation (AI-BOM), offrant aux entreprises européennes une méthodologie concrète pour structurer leur conformité réglementaire.

SécuritéActu
1 source
Des millions d'agents IA menacés par une faille critique dans un paquet open source
3Ars Technica AI 

Des millions d'agents IA menacés par une faille critique dans un paquet open source

Des millions d'agents et d'outils d'intelligence artificielle sont exposés à une faille critique découverte dans Starlette, un framework open source téléchargé 325 millions de fois par semaine selon son propre développeur. La vulnérabilité permet à des attaquants de s'introduire dans les serveurs qui hébergent ces agents et de dérober des données sensibles ainsi que des identifiants donnant accès à des services tiers. Starlette est une implémentation de l'ASGI (Asynchronous Server Gateway Interface), une interface conçue pour traiter efficacement de très nombreuses requêtes simultanées. Il constitue le socle de FastAPI et de nombreux autres frameworks Python très répandus, si bien que des milliers de projets open source dépendant de Starlette se retrouvent également vulnérables. La gravité de la situation tient à ce que Starlette, et plus largement l'écosystème ASGI, fournit l'infrastructure sur laquelle s'appuient les serveurs MCP (Model Context Protocol). Ce protocole, adopté par les principaux fournisseurs d'agents IA, permet à ces agents d'accéder à des ressources externes : bases de données utilisateurs, messageries, agendas et bien d'autres services. Pour fonctionner, les serveurs MCP stockent les identifiants de connexion à chacun de ces systèmes, ce qui en fait des cibles particulièrement lucratives pour un attaquant. La faille serait en outre triviale à exploiter, ce qui signifie qu'elle ne nécessite pas de compétences avancées pour être mise en oeuvre. Cette découverte illustre les risques systémiques liés à la dépendance de l'écosystème IA moderne vis-à-vis de composants open source largement partagés. Le MCP, popularisé par Anthropic et rapidement adopté par les grandes plateformes, a accéléré l'intégration des agents IA dans des environnements sensibles, sans que les audits de sécurité des couches sous-jacentes aient suivi le même rythme. Une seule bibliothèque compromise peut ainsi propager une vulnérabilité à travers toute une chaîne de dépendances, touchant simultanément des millions de déploiements. Les équipes de sécurité et les développeurs utilisant FastAPI ou tout projet fondé sur Starlette sont invités à appliquer les correctifs dès leur disponibilité et à auditer les identifiants potentiellement exposés.

UELes développeurs français et européens utilisant FastAPI ou tout projet basé sur Starlette pour leurs agents IA doivent appliquer les correctifs dès que disponibles et auditer immédiatement les identifiants potentiellement exposés dans leurs serveurs MCP.

💬 325 millions de téléchargements par semaine, ça donne une idée de la surface d'attaque. On a adopté le MCP à toute vitesse, en empilant des agents au-dessus de FastAPI sans jamais trop regarder ce qui était en dessous. Si tu as un serveur MCP en prod, tu vérifies ta version de Starlette maintenant, pas ce soir.

SécuritéActu
1 source
OpenAI élargit l'accès à GPT-5.4-Cyber, un modèle affiné pour les professionnels de la cybersécurité
4MarkTechPost 

OpenAI élargit l'accès à GPT-5.4-Cyber, un modèle affiné pour les professionnels de la cybersécurité

OpenAI a annoncé l'extension de son programme Trusted Access for Cyber (TAC) à des milliers de professionnels de la sécurité vérifiés individuellement, ainsi qu'à des centaines d'équipes chargées de défendre des infrastructures logicielles critiques. Au cœur de cette expansion figure GPT-5.4-Cyber, un modèle dérivé de GPT-5.4 spécifiquement ajusté pour les usages défensifs en cybersécurité. Contrairement au modèle standard, GPT-5.4-Cyber adopte ce qu'OpenAI qualifie d'approche "cyber-permissive" : son seuil de refus est délibérément abaissé pour les requêtes à vocation défensive légitime. Parmi les capacités débloquées figure notamment l'ingénierie inverse de binaires sans accès au code source, une fonctionnalité majeure pour analyser des firmwares, des bibliothèques tierces ou des échantillons de malwares compilés. Les utilisateurs accèdent au programme via chatgpt.com/cyber pour une vérification individuelle, ou par l'intermédiaire d'un représentant OpenAI pour les équipes entreprise. Ce changement s'attaque à un problème concret que connaissent bien les chercheurs et ingénieurs en sécurité : les modèles généralistes refusent fréquemment d'analyser du code malveillant ou d'expliquer des techniques d'exploitation, même dans un cadre manifestement défensif. Cette friction ralentit le travail des équipes de sécurité offensives et défensives légitimes, au profit, indirectement, des attaquants qui eux n'attendent pas de validation. En réduisant ces blocages pour des utilisateurs vérifiés, OpenAI cherche à rééquilibrer l'avantage technologique en faveur des défenseurs. Le modèle conserve toutefois des garde-fous stricts : l'exfiltration de données, la création ou le déploiement de malwares, et les tests non autorisés restent explicitement interdits. L'accès en mode zéro-rétention de données est également limité, OpenAI arguant d'une visibilité réduite sur l'environnement et les intentions de l'utilisateur dans cette configuration. La cybersécurité a toujours souffert de ce qu'on appelle le problème du double usage : les mêmes connaissances techniques servent aussi bien à défendre des systèmes qu'à les attaquer. Pour les systèmes d'IA, cette tension est particulièrement aiguë, car il est difficile de distinguer automatiquement une intention défensive d'une intention malveillante. OpenAI propose ici une réponse structurelle inédite : un cadre d'accès à plusieurs niveaux fondé sur la vérification d'identité, plutôt que des restrictions uniformes appliquées à tous. Cette approche s'inscrit dans une tendance plus large du secteur à différencier les accès selon le profil et les intentions déclarés de l'utilisateur. Si le modèle se généralise, d'autres fournisseurs de modèles comme Anthropic ou Google DeepMind pourraient être amenés à développer des dispositifs similaires pour ne pas laisser OpenAI s'imposer comme la référence des outils d'IA pour la sécurité professionnelle.

UELes professionnels de la cybersécurité européens peuvent candidater au programme TAC d'OpenAI pour accéder à des capacités d'analyse défensive avancées, notamment l'ingénierie inverse de binaires et l'analyse de malwares compilés.

SécuritéOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic