Dossier Open weight & Open source — page 6

827 articles · page 6 sur 17

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

251MarkTechPost SécuritéOpinion

Sakana AI dévoile Fugu-Cyber, un modèle d'orchestration affichant 86,9% sur CyberGym et 72,1% sur CTI-REALM

Sakana AI a dévoilé Fugu-Cyber le 21 juillet 2026, une troisième déclinaison spécialisée en cybersécurité de son orchestrateur Fugu, lancé un mois plus tôt. L'entreprise japonaise annonce un taux de réussite de 86,9% sur CyberGym, un benchmark de l'Université de Berkeley couvrant 1 507 vulnérabilités réelles réparties sur 188 projets open source issus d'OSS-Fuzz, où l'agent doit produire un code de preuve de concept capable de faire planter une version non corrigée sans affecter la version patchée. Sur CTI-REALM, le benchmark de détection développé par Microsoft à partir de 37 rapports de menaces publics (Datadog Security Labs, Palo Alto Networks, Splunk notamment), où l'agent doit cartographier des techniques MITRE ATT&CK et produire des règles Sigma validées, Fugu-Cyber affiche 72,1%. Contrairement à un modèle frontière classique, Fugu-Cyber repose sur l'architecture d'orchestration de Sakana: un modèle qui construit à la volée un schéma agentique puis délègue les sous-tâches à des modèles spécialisés, avec un rôle de vérificateur chargé de valider chaque vulnérabilité avant qu'un correctif ne soit proposé. Ces chiffres méritent d'être resitués dans leur contexte pour en saisir la portée réelle. Sur CyberGym, les meilleurs modèles frontière plafonnaient autour de 20% lors des premières publications; Anthropic a rapporté 83,1% pour Claude Mythos Preview en avril 2026 dans le cadre du projet Glasswing, et OpenAI a annoncé 85,6% pour GPT-5.5-Cyber. Le score de Sakana ne représente donc qu'une avancée marginale, et non une rupture, sur ce premier test. En revanche, sur CTI-REALM, où Microsoft situait ses meilleures configurations (toutes basées sur Claude) entre 62,4% et 68,5%, Fugu-Cyber se positionnerait nettement au-dessus, un résultat à nuancer puisque ce benchmark mesure en réalité une récompense de trajectoire entre 0 et 1, et non un taux de réussite binaire comme le présente Sakana. Pour l'industrie de la sécurité, l'enjeu dépasse la simple compétition de scores: un modèle capable à la fois de prouver une vulnérabilité et de générer des règles de détection opérationnelles change la nature du travail des équipes de sécurité offensive et défensive, en accélérant potentiellement des tâches qui demandaient jusqu'ici une expertise humaine pointue des deux côtés du processus. L'accès à Fugu-Cyber reste toutefois strictement encadré, ce qui traduit la prudence de Sakana face aux risques de mésusage. Le modèle est soumis à un formulaire de candidature examiné manuellement, précisant le cas d'usage et l'identité du demandeur, et fonctionne sous une politique d'utilisation acceptable révisée qui interdit tout usage offensif. La facturation passe exclusivement par les abonnements Token Plan à 20, 100 ou 200 dollars, et l'API n'est pour l'instant pas proposée dans l'Union européenne ni dans l'Espace économique européen, le temps que Sakana finalise sa mise en conformité avec le RGPD. Côté tarifs, le modèle coûte 6 dollars par million de tokens en entrée, 36 dollars en sortie et 0,60 dollar pour le cache, avec un doublement de ces tarifs au-delà de 272 000 tokens de contexte, un seuil que les analyses de bases de code volumineuses franchissent aisément. Chaque tarif correspond exactement à 1,2 fois celui de Fugu-Ultra, soit une prime fixe de 20% pour la version cybersécurité, signe que Sakana mise sur ce créneau spécialisé comme relais de croissance face à des rivaux comme OpenAI et Anthropic déjà positionnés sur ce marché.

UEL'API Fugu-Cyber n'est pas encore proposee dans l'Union europeenne ni dans l'Espace economique europeen, Sakana devant finaliser sa mise en conformite avec le RGPD.

Dossier Open weight & Open source — page 6

Sakana AI dévoile Fugu-Cyber, un modèle d'orchestration affichant 86,9% sur CyberGym et 72,1% sur CTI-REALM

Les États-Unis enquêtent sur l'accès des entreprises chinoises d'IA aux puces face aux accusations visant Moonshot

AMD s’engage à investir 5 milliards de dollars dans Anthropic via un nouvel accord croisé

OpenAI revendique la responsabilité du piratage de Hugging Face après que ses propres modèles ont échappé à un bac à sable de test

Chine : des modèles ouverts bon marché, mais à quel prix pour Washington ?

Hugging Face affirme qu'un agent IA a piraté son infrastructure, et qu'elle a riposté avec l'IA

Robostral Navigate de Mistral AI : un modèle de 8 milliards de paramètres qui permet aux robots de naviguer dans des environnements complexes avec une simple caméra RGB

Anthropic découvre un espace caché où Claude « réfléchit » aux concepts

Meta lance Muse Spark 1.1 avec des prix qui bousculent OpenAI et Anthropic dans la guerre des tarifs de l'IA

Databricks fait de GLM 5.2, un modèle open-source chinois, son moteur de code par défaut après l'avoir vu égaler Opus à moindre coût

Mistral AI publie Leanstral 1.5 : un modèle agent de code Lean 4 sous licence Apache 2.0, qui résout 587 des 672 problèmes du PutnamBench

Génération d'images IA d'entreprise en 2 secondes : Krea 2 Raw et Turbo en open weights sous licence personnalisée

GPT-5.5-Cyber signe un score record en cybersécurité : le nouveau rival de Mythos ?

VibeThinker-3B : modèle de raisonnement dense basé sur Qwen2.5-Coder-3B via le pipeline Spectrum-to-Signal

Adobe intègre des flux de travail à base d'agents dans Creative Cloud, passant de la génération de médias à l'orchestration de production

Treize mots sur Reddit suffisent à piéger une IA et lui faire recommander une arnaque

GLM-5.2 de Zhipu AI rivalise avec les meilleurs modeles propriétaires sur les benchmarks de codage

La boîte de Pandore de l’IA est ouverte : un expert nous explique quoi faire maintenant

OpenAI Partner Network : un réseau pour industrialiser l’IA

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

Après VLC, Jean-Baptiste Kempf veut construire le système nerveux des robots

Red Hat et NVIDIA dévoilent une nouvelle infrastructure dédiée aux agents IA

Les sous-titres détaillés surpassent le volume brut pour entraîner des générateurs d'images efficaces, selon Lens de Microsoft Research

Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière

Meta envisage de facturer jusqu'à 200 dollars par mois pour son agent IA "Hatch

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

Les leaders du logiciel industriel créent des ingénieurs IA autonomes et sécurisés avec NVIDIA NIM

Le plan de GitHub pour les agents, par Kyle Daigle

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

Gemini 3.5 Flash veut réduire les coûts IA des entreprises

Anthropic rétablit OpenClaw et les agents tiers sur les abonnements Claude, mais sous conditions

Meta dévoile l’agent IA Hatch : un OpenClaw pensé pour le grand public ?

Les coûts croissants de l'IA posent problème même aux investisseurs

Voxtral de Mistral comble le fossé d'expressivité dans le clonage vocal multilingue grâce à une architecture hybride

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

ImageGen est sur la voie de l'AGI

Google et AWS répartissent la pile des agents IA entre contrôle et exécution

OpenAI s’attaque à la Fintech : quel impact pour le secteur financier ?

Le futur du génie logiciel redéfini

Le système de tatouage numérique IA de Google a-t-il été percé ?

Microsoft prépare de nouvelles fonctionnalités pour Copilot, inspirées d'OpenClaw

☕️ Linux clarifie les règles d’utilisation de l’IA dans les contributions au noyau

Le secteur de l'IA face à une course aux profits devenue existentielle

Google lance une application pour utiliser son IA en local sur iPhone et Android

Alibaba lance un nouveau modèle d'IA propriétaire

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client

Iliad fait de l’IA et du cloud ses nouveaux relais de croissance

Nvidia Earth-2 : l’IA qui va révolutionner la prédiction météo dans le monde entier