Aller au contenu principal

Open weight & Open source· sujet

558 articlesmis à jour le 10 juin 2026

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

Hub d'actualité sur Open weight & Open source, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Le pouls du sujet · 30 derniers jours

données Le Fil IA
34 10%
articles (vs 30j préc.)
2.6%
de la couverture IA
Souvent associé à
AgenticOpenAIInférenceAnthropicMixture-of-Experts

Mesuré sur notre corpus de 50+ sources, fenêtre glissante de 30 jours. Part de voix = part des articles IA de la période mentionnant Open weight & Open source. Voir le Baromètre IA complet

À retenir · 30 derniers jours

L'open-weight est le mouvement structurant 2026 : DeepSeek V4 sous licence MIT, Mistral en open par défaut, Google Gemma 4, Qwen 3.5, Meta Llama 4. La promesse : pas de dépendance à un fournisseur unique, déploiement self-hosted, audit possible.

Mais 2026 a aussi exposé les fragilités. La faille MCP STDIO (200 000 serveurs vulnérables, avril 2026), le malware LiteLLM dans les clusters Kubernetes (mars 2026), CLI-Anything (mai 2026 — une commande transforme un dépôt open en porte dérobée pour agents). L'open-weight ne signifie pas l'open-secure.

Pourquoi Open weight & Open source compte

L'open-weight compte parce qu'il restructure la dépendance. Avec DeepSeek V4-Flash sous licence MIT à 0,42 $/M tokens combiné, les administrations européennes peuvent déployer sans dépendance à OpenAI ou Anthropic. C'est une voie souverainiste viable.

Le revers : la sécurité de la chaîne d'approvisionnement. Quand Anthropic crée MCP et qualifie le comportement STDIO d'« expected » sans le patcher, c'est l'écosystème open qui hérite du risque. CLI-Anything montre qu'une commande suffit pour transformer un dépôt en porte dérobée pour agents. La promesse open-weight est intacte ; la promesse open-secure reste à construire.

Chronologie

  1. Févr 2024Llama 2 sous licence permissive : Meta lance le mouvement open-weight grand public
  2. Mai 2024DeepSeek-V2 (236B MoE) ouvre l'ère open-weight performant
  3. Janv 2025DeepSeek-R1 démontre la faisabilité d'un raisonnement open-weight competitive
  4. Mar 2026Le proxy IA LiteLLM infecté par un malware se propage dans les clusters Kubernetes
  5. Avr 2026OX Security : 200 000 serveurs MCP vulnérables (CVE high/critical sur LangFlow, LiteLLM, Windsurf, etc.)
  6. 24 avr 2026DeepSeek V4 Pro et Flash en licence MIT, compatibles Huawei Ascend
  7. 27 avr 2026Comment survivre à la déferlante de vulnérabilités identifiées par IA
  8. 5 mai 2026Voxtral de Mistral comble le fossé d'expressivité dans le clonage vocal multilingue
  9. 6 mai 2026CLI-Anything : une commande transforme un dépôt open source en porte dérobée pour agents IA

Cinq articles essentiels

Sélection éditoriale. Ces cinq pièces couvrent les angles les plus utiles pour comprendre Open weight & Open source en 2026.

  1. CLI-Anything : une commande suffit pour transformer un dépôt open en porte dérobée. La fragilité de la supply chain agentique open-weight.

  2. 200 000 serveurs MCP vulnérables : Anthropic refuse de patcher le protocole. La gouvernance des standards ouverts en question.

  3. Le proxy LiteLLM infecté par un malware : la chaîne d'approvisionnement open-weight Kubernetes attaquée.

  4. Mistral Voxtral surpasse ElevenLabs en open : la démonstration que l'open-weight peut battre le propriétaire sur des angles spécifiques.

  5. Comment survivre à la déferlante de vulnérabilités identifiées par IA — le manuel pratique pour responsables sécurité.

Analyses long-form sur Open weight & Open source

Quand un sujet mérite un format long, c'est ici.

Questions fréquentes

Open-weight vs open-source : quelle différence ?

Open-weight = les poids du modèle sont publics et utilisables. Open-source = code source d'entraînement + données + poids tous publics. La majorité des modèles dits « open » en 2026 sont open-weight uniquement (DeepSeek, Llama, Gemma, Mistral) ; le code d'entraînement et les corpus restent fermés.

Quels sont les principaux modèles open-weight en 2026 ?

DeepSeek V4 Pro et Flash (licence MIT, performance frontière), Mistral Medium 3.5 + Voxtral (Apache 2.0), Meta Llama 4 (licence permissive avec restrictions), Google Gemma 4 (Apache 2.0, multimodal), Alibaba Qwen 3.5 (Apache 2.0). Microsoft Phi (open MIT). Cohere Command-R (open avec restrictions commerciales).

L'open-weight est-il sûr en production ?

Pas par défaut. La faille MCP STDIO d'avril 2026, le malware LiteLLM, CLI-Anything montrent que la chaîne d'approvisionnement open-weight a des fragilités structurelles. Le déploiement nécessite : audit du dépôt source, sandboxing, capacités limitées par défaut, validation avant action destructrice. La promesse open-weight est intacte ; la sécurité reste à construire en couche au-dessus.

Pourquoi DeepSeek a-t-elle choisi la licence MIT ?

Stratégie politique + commerciale. Politique : démontrer que la Chine peut produire un open-weight de classe mondiale, ce qui place pression sur les fermés américains et ouvre des voies pour les déploiements souverains. Commerciale : le revenu vient de l'API publique, pas des licences. La masse d'utilisation gratuite alimente la roadmap.

Toute l'actualité Open weight & Open source

Flux automatique. Articles classés par pertinence, agrégés en continu.

Cohere publie en open source un agent de code fonctionnant sur un seul H100
1VentureBeat AI LLMsOpinion

Cohere publie en open source un agent de code fonctionnant sur un seul H100

Cohere a lancé mardi North Mini Code, un modèle de codage agentique open source de 30 milliards de paramètres au format mixture-of-experts (MoE), avec seulement 3 milliards de paramètres actifs par token. Disponible sur Hugging Face sous licence Apache 2.0, il supporte une fenêtre de contexte de 256 000 tokens et une génération maximale de 64 000 tokens. Sa particularité technique : il tourne sur un seul GPU H100, et Nick Frosst, cofondateur de Cohere, l'a même démontré en fonctionnement sur un Mac Studio via MLX avec 20 Go de RAM. Le modèle a été entraîné via deux phases de fine-tuning supervisé suivies d'apprentissage par renforcement sur plus de 70 000 tâches vérifiables issues d'environ 5 000 dépôts, dédupliqués par rapport à SWE-Bench. Cohere revendique des performances supérieures aux modèles open source jusqu'à quatre fois plus grands, dont des modèles à 120 milliards de paramètres. North Mini Code représente une alternative concrète aux modèles propriétaires pour les équipes d'ingénierie qui veulent déployer des pipelines de codage agentique en interne, sans dépendre d'API externes. Le modèle gère l'orchestration de sous-agents, la cartographie d'architecture, la revue de code sur de larges bases de code multi-fichiers et le travail en environnement terminal. Selon les mesures indépendantes d'Artificial Analysis, il atteint 210 tokens par seconde avec un temps au premier token de 0,25 seconde, contre une médiane de 1,95 seconde pour sa catégorie. Face à Mistral Devstral Small 2 (24 milliards de paramètres dense), Cohere revendique un débit de sortie 2,8 fois supérieur et une latence inter-token réduite de 30 % dans des conditions matérielles identiques. Ces chiffres positionnent le modèle comme une option sérieuse pour des charges de production à volume élevé. Il existe néanmoins un point de vigilance notable : lors des tests de l'Intelligence Index d'Artificial Analysis, North Mini Code a généré 75 millions de tokens en sortie pour compléter l'évaluation, contre une médiane de 25 millions pour les modèles comparables. Cette verbosité excessive peut tripler les coûts d'inférence dans des pipelines agentiques intensifs, là où chaque appel enchaîne plusieurs étapes. Cohere a par ailleurs entraîné le modèle sur trois scaffolds d'agents distincts (SWE-Agent, Mini-SWE-Agent et OpenCode) plutôt qu'un seul, gagnant 10 points de pourcentage sur l'évaluation OpenCode tout en maintenant les performances sur SWE-Agent. Le modèle s'inscrit dans un marché en rapide consolidation face à GitHub Copilot, Cursor et les derniers modèles Mistral, où la capacité à s'auto-héberger sur du matériel standard devient un avantage différenciant majeur pour les entreprises soucieuses de contrôle et de coût.

UELe modèle open source sous licence Apache 2.0 offre aux équipes d'ingénierie européennes une option concrète d'auto-hébergement pour des pipelines de codage agentique, réduisant la dépendance aux API propriétaires américaines dans un contexte de sensibilité croissante à la souveraineté des données.

1 source
Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes
2VentureBeat AI 

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper
1 source
Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire
3The Decoder 

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire

Un nouveau modèle vocal open source baptisé Audio Interaction vient d'être publié avec ses poids, son code source et ses instructions de déploiement sur GitHub, sous licence Apache 2.0. Sa particularité technique est de prendre une décision toutes les 0,4 secondes : parler ou se taire. Contrairement à la plupart des assistants vocaux actuels, il n'attend pas la fin d'un enregistrement pour répondre, mais écoute en continu un flux audio pour transcrire, traduire, converser et détecter des sons du quotidien comme une toux. Les données d'entraînement seront publiées séparément dans un second temps. Cette approche représente un changement de paradigme pour les interfaces vocales. Les modèles comme GPT-4o ou Qwen3.5-Omni fonctionnent encore en mode tour par tour : ils attendent que l'utilisateur finisse de parler avant de traiter la demande. Audio Interaction brise cette contrainte en analysant le flux sonore en temps réel, ce qui ouvre la voie à des interactions bien plus naturelles, notamment pour les assistants embarqués, les outils d'accessibilité ou les applications de traduction simultanée. La licence Apache 2.0 le rend immédiatement utilisable par des développeurs et des entreprises sans restriction commerciale. Le modèle s'inscrit dans une course intense autour de l'audio nativement multimodal, accélérée par la présentation de GPT-4o en mai 2024. L'ouverture complète de la chaîne, des poids aux données, reste encore rare dans ce domaine dominé par des solutions propriétaires, et pourrait stimuler une vague de recherche indépendante sur les modèles vocaux en temps réel. La publication imminente des données d'entraînement permettra à la communauté de reproduire et d'affiner les résultats de manière transparente.

UELes développeurs et entreprises européens peuvent adopter librement ce modèle vocal sous licence Apache 2.0 pour intégrer des interfaces vocales temps réel dans leurs applications, sans restriction commerciale.

💬 0,4 secondes pour décider de parler ou se taire, c'est le détail qui change tout. Le mode tour par tour des assistants actuels casse l'illusion à chaque échange, et là on a enfin une alternative ouverte avec les poids, le code, et une Apache 2.0 qui ne bloque personne. Les données d'entraînement arrivent "dans un second temps", bon, j'attends de voir si c'est complet.

OutilsActu
1 source
NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming
4MarkTechPost 

NVIDIA publie Nemotron 3.5 ASR : un modèle de transcription temps réel en 40 langues, optimisé pour le streaming

NVIDIA a lancé Nemotron 3.5 ASR, un modèle de reconnaissance vocale automatique en streaming capable de transcrire 40 variantes linguistiques en temps réel depuis un seul checkpoint de 600 millions de paramètres. Publié en open weights sur Hugging Face sous licence OpenMDW-1.1, le modèle repose sur une architecture Cache-Aware FastConformer-RNNT qui intègre nativement la ponctuation et les majuscules, sans étape de post-traitement supplémentaire. Il couvre des langues aussi variées que l'anglais, le français, l'espagnol, l'arabe, le japonais, le coréen, le mandarin, le hindi ou le thaï, avec un mode de détection automatique de la langue (targetlang=auto) permettant de traiter des flux audio multilingues sans composant externe. La latence est configurable à l'inférence via un paramètre unique (attcontext_size), offrant des modes allant de 80 ms ultra-basse latence jusqu'à 1,12 seconde pour une précision maximale, sans nécessiter de réentraînement. Ce modèle s'attaque directement à l'un des principaux obstacles au déploiement industriel de la transcription vocale en temps réel : la complexité opérationnelle. Jusqu'ici, couvrir plusieurs langues imposait de maintenir autant de modèles distincts, de gérer des pipelines de détection de langue séparés, et de choisir entre latence et précision via des checkpoints différents. Nemotron 3.5 ASR supprime ces trois frictions en un seul déploiement. Pour les équipes produit qui développent des outils de sous-titrage en direct, des assistants vocaux multilingues ou des plateformes de transcription à grande échelle, cela représente une réduction significative de l'infrastructure et du coût d'exploitation. Le fait qu'il soit disponible gratuitement en self-hosting change également la donne face aux services cloud payants comme Nova-3 de Deepgram (~0,0077 $/min) ou Scribe v2 Realtime d'ElevenLabs (~0,28 $/heure). NVIDIA opère depuis plusieurs années une montée en puissance dans le domaine des modèles de traitement du langage parlé, notamment via sa division Nemotron Speech. Ce lancement s'inscrit dans une compétition intense entre acteurs open source et solutions propriétaires : Whisper large-v3 d'OpenAI reste la référence en transcription batch (99 langues, MIT), mais n'est pas natif au streaming ; AssemblyAI (Universal-3 Pro) et Speechmatics se positionnent sur le streaming temps réel, mais avec des couvertures linguistiques plus étroites ou des API fermées. NVIDIA entre dans ce segment avec un modèle à la fois performant, polyglotte et librement hébergeable, ce qui pourrait accélérer son adoption dans les environnements souverains ou à contraintes de confidentialité forte. La prochaine étape probable sera l'intégration dans les pipelines NIM (NVIDIA Inference Microservices) pour simplifier encore le déploiement en production.

UELe modèle couvre explicitement le français parmi ses 40 variantes linguistiques, et son mode self-hosting gratuit facilite le déploiement dans des environnements européens soumis aux exigences de souveraineté des données, réduisant la dépendance aux API cloud américaines payantes.

💬 Un seul checkpoint pour 40 langues en streaming, ponctuation et majuscules intégrées nativement : c'est le genre de truc qu'on attendait depuis 2 ans. Couvrir plusieurs langues en temps réel imposait jusqu'ici de gérer autant de modèles distincts plus un détecteur de langue en amont, bref une usine à gaz. Et là, en self-hosting gratuit face à Deepgram à 0,0077 $ la minute, les équipes qui hésitaient vont vite trancher.

OutilsOpinion
1 source
Pas grand-chose à signaler aujourd'hui
5Latent Space 

Pas grand-chose à signaler aujourd'hui

Deux annonces majeures ont dominé l'actualité IA des 3 et 4 juin 2026. NVIDIA a lancé Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres au format MoE, avec 55 milliards de paramètres actifs et une fenêtre de contexte d'un million de tokens. Entraîné sur 20 000 milliards de tokens en précision NVFP4, le modèle repose sur une architecture hybride Mamba/attention avec LatentMoE, et est publié sous licence OpenMDW 1.1 avec poids, données synthétiques, checkpoints et recettes d'entraînement. NVIDIA affirme qu'il est jusqu'à 5 fois plus rapide et 30 % moins coûteux pour les tâches agentiques. Testé indépendamment par Artificial Analysis, il obtient 47,7 sur l'Intelligence Index, ce qui en fait le modèle open weights américain le plus performant à ce jour, bien qu'il reste derrière le modèle chinois Kimi K2.6. Disponible dès le jour du lancement sur vLLM, Modal, Together AI, Fireworks, Ollama et Baseten, il génère plus de 400 tokens par seconde via BlackBox. NVIDIA a également publié Nemotron 3.5 ASR, un modèle de reconnaissance vocale en streaming de 0,6 milliard de paramètres, couvrant 40 combinaisons langue-locale avec une latence inférieure à 100 millisecondes. L'autre annonce marquante vient d'Anthropic, qui a publié une note de recherche affirmant que ses systèmes actuels présentent des signes précoces d'amélioration récursive d'eux-mêmes. Les chiffres opérationnels sont frappants : plus de 80 % du code fusionné en interne chez Anthropic est désormais écrit par Claude, les ingénieurs produisent 8 fois plus de code par trimestre qu'avant, et le taux de succès de Claude sur des tâches d'ingénierie complexes en conditions ouvertes est passé de 26 % à 76 % en six mois. Le point de données le plus saisissant concerne un benchmark interne consistant à optimiser un script d'entraînement : Claude Opus 4 obtient en moyenne une accélération de 3x, tandis que Mythos Preview, un modèle expérimental plus avancé, atteint 52x. Ce même modèle surpasse des chercheurs humains 64 % du temps lorsqu'il s'agit de suggérer la prochaine étape dans une session de recherche ayant pris une mauvaise direction. Ces résultats s'inscrivent dans un contexte où la question de la gouvernance de l'IA devient centrale. Anthropic écrit explicitement qu'il serait "bénéfique pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de frontier", appelant à des mécanismes de vérification et de coordination face à une dynamique auto-accélératrice. La publication intervient alors que ChatGPT vient de franchir le milliard d'utilisateurs actifs mensuels, avec cinq mois de retard sur les prévisions. Ensemble, le lancement d'un modèle open source de cette envergure par NVIDIA et les métriques internes d'Anthropic dessinent un moment charnière : l'IA est désormais un acteur central de sa propre évolution, et les questions de contrôle rejoignent en urgence celles de performance.

UEL'appel explicite d'Anthropic à des mécanismes de vérification et de coordination internationale du développement de l'IA de frontier résonne directement avec les ambitions régulatrices de l'AI Act européen et renforce les partisans d'une gouvernance mondiale contraignante.

💬 Ce qui m'a arrêté, c'est pas Nemotron (solide, disponible sur Ollama dès le lancement, on s'en servira). C'est les chiffres internes d'Anthropic : 80% de leur code écrit par Claude, taux de réussite sur des tâches d'ingénierie complexes passé de 26% à 76% en six mois, et un modèle expérimental qui optimise des scripts d'entraînement à 52x. Quand ceux qui construisent l'outil publient ces chiffres ET appellent dans le même document à ralentir le développement, c'est qu'ils voient quelque chose qu'on ne voit pas encore.

LLMsActu
1 source
NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes
6MarkTechPost 

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés. Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas. Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.

UELa publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.

💬 L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.

LLMsOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
7Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source
Miso Labs publie MisoTTS : un modèle de synthèse vocale expressif de 8 milliards de paramètres en open weights
8MarkTechPost 

Miso Labs publie MisoTTS : un modèle de synthèse vocale expressif de 8 milliards de paramètres en open weights

Miso Labs a publié le 3 juin 2026 MisoTTS, un modèle de synthèse vocale open-weights de 8 milliards de paramètres capable de générer une parole expressive à partir de texte et de contexte audio. Construit sur une architecture de type Llama 3.2, le modèle s'inspire du système CSM de Sesame et repose sur une technique de quantification vectorielle résiduelle (RVQ) pour représenter les sons. Contrairement aux transformeurs classiques qui travaillent avec un vocabulaire discret fixe, MisoTTS émet pour chaque token audio un vecteur de 32 indices issus de codebooks de 2048 entrées chacun, ce qui lui permet d'atteindre théoriquement environ 10^105 tokens adressables sans augmenter le nombre de paramètres. L'architecture se divise en deux composants : un backbone de 7,7 milliards de paramètres responsable de la prédiction temporelle, et un décodeur de 300 millions de paramètres qui raffine les indices de codebook restants. Miso Labs revendique une latence de 110 millisecondes, contre 300 ms pour Sesame et 700 ms pour ElevenLabs. Le modèle est publié sous une licence MIT modifiée. Ce lancement est notable pour deux raisons techniques distinctes. La première est la résolution du problème de vocabulaire : la parole humaine varie en hauteur, rythme, accentuation, émotion et accent, ce qui la rend difficile à capturer avec un vocabulaire de tokens classique sans gonfler massivement la taille du modèle. La RVQ contourne cette limite en empilant des raffinements successifs plutôt qu'en élargissant un seul vocabulaire plat. La seconde avancée concerne le conditionnement : la plupart des systèmes TTS existants ne prennent en entrée que du texte. MisoTTS conditionne aussi le modèle sur l'audio de l'interlocuteur, lui permettant de répondre au ton de la conversation plutôt que de produire une voix uniforme. Miso Labs soutient que c'est précisément cette absence de prise en compte du contexte émotionnel qui cause l'effet de vallée de l'étrange dans les TTS actuels. Le modèle s'inscrit dans une dynamique d'ouverture accélérée dans le secteur des modèles audio. Après Sesame, dont l'architecture CSM a directement inspiré MisoTTS, plusieurs laboratoires cherchent à rendre la synthèse vocale expressive accessible localement, en dehors des API propriétaires. Le déploiement local est d'ailleurs l'un des arguments commerciaux de Miso Labs, qui met en avant la confidentialité des données audio. Des limites demeurent : le modèle fonctionne uniquement en mode half-duplex, sans gestion du tour de parole, nécessite un GPU CUDA performant, et l'accès API annoncé n'est pas encore disponible. Les affirmations sur la latence et la qualité n'ont pas encore été vérifiées par des tiers indépendants, ce qui laisse ouvertes les questions sur les performances réelles en production.

UELes développeurs et entreprises européennes peuvent déployer localement ce modèle open-weights pour la synthèse vocale expressive, réduisant leur dépendance aux API propriétaires et améliorant la confidentialité des données audio sensibles.

CréationOpinion
1 source
Miso Labs lance Miso One : la nouvelle référence open source de la synthèse vocale ?
9Le Big Data 

Miso Labs lance Miso One : la nouvelle référence open source de la synthèse vocale ?

Miso Labs a lancé le 3 juin 2026 Miso One, un modèle de synthèse vocale open source de 8 milliards de paramètres conçu pour la génération vocale conversationnelle. Contrairement aux systèmes classiques de lecture de texte, Miso One vise à produire des échanges naturels dont le ton et le rythme s'adaptent au contexte. Sa caractéristique technique la plus frappante est sa latence annoncée de 110 millisecondes, soit moins que le temps de réaction humain moyen en conversation, estimé à 160 millisecondes. Le modèle propose également le clonage vocal à partir d'un extrait audio d'une dizaine de secondes, une fonctionnalité désormais courante dans le secteur mais rare dans les solutions ouvertes. Miso Labs a publié les poids du modèle dès son lancement, permettant aux développeurs de l'héberger eux-mêmes, de l'adapter ou de l'intégrer directement dans leurs applications. L'enjeu principal de ce lancement est de proposer une alternative crédible et souveraine aux API vocales propriétaires qui dominent le marché, comme celles d'ElevenLabs ou d'OpenAI. La possibilité d'héberger le modèle en local intéresse particulièrement les organisations traitant des données sensibles : secteur médical, financier ou administrations publiques, pour qui confier des données audio à des tiers représente un risque juridique et réglementaire réel. Sur le plan de l'expérience utilisateur, réduire la latence sous le seuil de perception humaine pourrait effacer l'une des dernières frictions qui trahissent encore les assistants vocaux, le silence artificiel entre question et réponse. Les premiers retours de testeurs publiés en ligne sont enthousiastes, certains affirmant avoir fait passer des voix générées pour des enregistrements humains auprès de proches. La synthèse vocale expressive est devenue un champ de bataille technologique majeur, tirée par l'essor des agents conversationnels et des interfaces vocales embarquées. Miso Labs s'inscrit dans un mouvement plus large de modèles open source qui cherchent à contester la domination des grandes plateformes américaines en rendant des capacités avancées accessibles sans abonnement ni dépendance à une API fermée. Cela dit, plusieurs zones d'ombre subsistent à ce stade : l'entreprise n'a pas publié la méthodologie précise derrière sa mesure de latence à 110 millisecondes, ni les conditions matérielles dans lesquelles ce chiffre a été obtenu. Aucune évaluation indépendante n'est encore venue valider les performances revendiquées en matière d'expressivité. Comme souvent dans l'industrie de l'IA, les annonces précèdent les benchmarks tiers, et Miso One devra passer l'épreuve des tests communautaires pour confirmer ses promesses.

UELes organisations européennes traitant des données audio sensibles (santé, finance, administrations publiques) pourraient adopter Miso One pour éliminer le risque juridique lié au transfert de données vers des API vocales tierces, en cohérence avec les obligations du RGPD.

💬 110 ms de latence sur un modèle open source auto-hébergeable, c'est le genre d'annonce qui mérite qu'on s'arrête deux secondes. Ce qui m'intéresse vraiment ici, c'est moins la perf brute que la possibilité de cloner une voix en local sans envoyer la moindre donnée audio à ElevenLabs ou OpenAI, ce qui débloque enfin la synthèse vocale pour le médical, le financier, les administrations, tout ce monde qui voulait se lancer mais bloquait sur le RGPD. Reste que le 110 ms sent le benchmark maison, et on attend les tests communautaires pour vraiment y croire.

CréationOpinion
1 source
Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?
10Le Big Data 

Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?

Ideogram a lancé le 3 juin 2026 la version 4.0 de son modèle de génération d'images, et les chiffres publiés par la startup canadienne ont rapidement retenu l'attention de la communauté. Sur Design Arena, plateforme de comparaison indépendante basée sur des duels à l'aveugle entre générateurs d'images, Ideogram 4.0 atteint un score Elo de 1285, devançant de plus de 100 points des concurrents directs comme HunyuanImage de Tencent ou Gemini 3 Flash Image Gen de Google. Le modèle repose sur 9,3 milliards de paramètres et introduit une architecture d'entrée originale : les prompts sont fournis sous forme de descriptions JSON structurées plutôt qu'en texte libre, ce qui permet de spécifier des palettes de couleurs précises, des positions d'éléments via coordonnées, et de dissocier le contenu textuel de son style graphique. Disponible dès aujourd'hui sur les plans Ideogram et via API, le modèle est également distribué en poids ouverts sous licence non commerciale, avec une intégration native dans ComfyUI. Ce qui distingue Ideogram 4.0 de ses concurrents n'est pas uniquement la qualité esthétique globale, mais sa maîtrise de la typographie dans les images, l'un des défis les plus persistants de la génération visuelle par IA. Avec un taux de réussite de 47,9 % évalué par des designers professionnels pour la génération de texte lisible et bien intégré, le modèle s'adresse directement aux usages professionnels : création d'affiches, de logos, de visuels marketing ou de contenus éditoriaux. Pour les designers et créateurs de contenu, cette précision change concrètement le flux de travail : il devient possible de produire un visuel complet sans repasser par Photoshop pour corriger une typographie défaillante. Pour les développeurs, les poids ouverts permettent un déploiement local et un fine-tuning sur des données propriétaires, sans dépendance à une API tierce. Ideogram, fondé à Toronto en 2023 par d'anciens chercheurs de Google Brain, s'était déjà imposé comme une référence pour la génération de texte dans les images avec ses versions précédentes, mais restait en retrait face aux modèles fermés de Midjourney ou Adobe Firefly sur la qualité visuelle globale. Ce lancement en open weights s'inscrit dans une tendance plus large où les laboratoires misent sur l'ouverture pour accélérer l'adoption et construire un écosystème de développeurs fidèles, une stratégie que Meta a popularisée avec LLaMA dans le domaine du texte. La vraie question reste la durabilité de l'avance d'Ideogram : Stability AI, Black Forest Labs (auteur de FLUX) et les équipes de Tencent travaillent sur des modèles comparables, et les benchmarks Elo peuvent évoluer vite. Les prochains mois diront si Ideogram 4.0 s'impose comme standard ou si la course reste ouverte.

UELes poids ouverts sous licence non commerciale permettent aux développeurs et chercheurs européens de déployer le modèle localement sans dépendance à une API tierce, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

💬 La typo dans les images, c'était le vrai problème depuis le début. 47,9% de réussite sur du texte lisible évalué par des designers pros, ça change la donne en production, et le format JSON pour spécifier palette et positions rend le truc plus prévisible qu'un prompt texte classique. Les poids ouverts non commerciaux, c'est un bon signal, mais faut pas oublier que FLUX et les équipes Tencent ne dorment pas.

CréationOpinion
1 source
Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go
11VentureBeat AI 

Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go

Google a lancé ce mardi Gemma 4 12B, un modèle d'intelligence artificielle open source de 11,95 milliards de paramètres, publié sous licence Apache 2.0 et conçu pour fonctionner entièrement en local sur un ordinateur portable d'entreprise standard disposant de 16 Go de VRAM ou de mémoire unifiée. Disponible immédiatement en téléchargement gratuit sur Hugging Face et Kaggle, ainsi que via Google AI Edge Gallery, le modèle intègre une fenêtre de contexte de 256 000 tokens, un mode de raisonnement pas à pas, et des capacités natives d'appel de fonctions pour la construction d'agents autonomes. Sa particularité architecturale principale est une structure dite "Unifiée" sans encodeur séparé : les flux audio bruts et les données visuelles sont projetés directement dans l'espace d'embedding du modèle via de simples couches linéaires, le tout sans modules de traitement secondaires. L'encodeur visuel est remplacé par un module de seulement 35 millions de paramètres reposant sur une unique multiplication matricielle, et l'encodeur audio est supprimé entièrement. Cette approche change concrètement les conditions d'utilisation pour les équipes techniques en entreprise. En éliminant les encodeurs secondaires, Gemma 4 12B réduit la latence d'inférence multimodale et abaisse les besoins en mémoire à un seuil atteignable par des machines grand public. Pour les secteurs soumis à des contraintes réglementaires strictes comme la santé, la finance ou la défense, la possibilité de traiter localement des documents confidentiels, du code propriétaire ou des transcriptions de réunions sans envoyer ces données vers des API tierces représente un avantage décisif. Le modèle rivalise par ailleurs en performance avec le Gemma 26B Mixture-of-Experts de Google, malgré un gabarit bien inférieur, ce qui en fait un outil crédible pour des déploiements sans connexion réseau ou dans des environnements à fort niveau de sécurité. Cette publication s'inscrit dans une tendance de fond chez les grands acteurs de l'IA : proposer des modèles capables de tourner à la périphérie du réseau, là où les contraintes de coût, de latence ou de confidentialité rendent les solutions cloud insuffisantes. Alors que la plupart des laboratoires se concentrent sur la course aux modèles toujours plus grands, Google maintient un effort parallèle sur la gamme Gemma pour couvrir les usages embarqués et offline. L'intégration native du mode "thinking" et du tool use positionne Gemma 4 12B comme une base sérieuse pour construire des agents logiciels autonomes fonctionnant sans infrastructure cloud, un segment en pleine expansion à mesure que les entreprises cherchent à déployer l'IA sur des postes de travail isolés ou dans des environnements industriels contraints.

UELe traitement entièrement local sans transmission vers des serveurs tiers facilite la conformité RGPD pour les entreprises européennes des secteurs réglementés comme la santé et la finance.

💬 C'est le genre de truc qu'on attendait depuis 2 ans : un modèle multimodal qui tourne sur ta machine sans envoyer tes données chez Google. Supprimer les encodeurs séparés pour projeter audio et vidéo directement dans l'espace d'embedding, c'est pas du cosmétique, ça réduit la mémoire nécessaire à quelque chose d'atteignable sur du matériel grand public. Pour les boîtes en santé ou finance qui se battent avec le RGPD, t'as enfin une base sérieuse.

LLMsActu
1 source
Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré
12The Decoder 

Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré

Ideogram a publié la version 4.0 de son modèle de génération d'images, en le rendant disponible en open-weight, c'est-à-dire avec les poids accessibles publiquement. Cette nouvelle version introduit une résolution native de 2K, un contrôle par boîtes englobantes permettant de positionner précisément les éléments visuels, et des capacités améliorées de rendu du texte dans les images générées. Sur le classement DesignArena, Ideogram 4.0 se hisse à la première place parmi tous les modèles ouverts disponibles. Seuls les systèmes fermés d'OpenAI et de Google le dépassent encore. L'usage commercial reste toutefois soumis à une licence payante. Cette publication marque une avancée significative pour l'écosystème open-weight dans la génération d'images. Jusqu'ici, les modèles capables de produire du texte lisible et correctement intégré dans une image restaient une faiblesse notoire des systèmes ouverts. Proposer la 2K en natif élargit les possibilités pour les créatifs, les designers et les développeurs qui cherchent à intégrer ces outils dans des pipelines de production professionnels sans dépendre entièrement de plateformes fermées. Ideogram s'est imposé ces derniers mois comme l'un des compétiteurs sérieux face à Midjourney, DALL-E et Imagen de Google, notamment grâce à sa maîtrise du rendu typographique. Le choix de l'open-weight, une stratégie popularisée par Meta avec Llama, vise à élargir l'adoption et à s'imposer comme référence dans la communauté des développeurs. La restriction commerciale via licence payante permet à Ideogram de préserver un modèle économique tout en bénéficiant de la visibilité de l'open source.

UELes développeurs et créatifs européens peuvent intégrer ce modèle open-weight dans leurs pipelines de production sans dépendre de plateformes américaines fermées.

CréationOpinion
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
13arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

RobotiqueOpinion
1 source
Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée
14VentureBeat AI 

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

Alibaba a lancé cette semaine Qwen3.7-Plus, son dernier grand modèle de langage multimodal, capable de traiter simultanément du texte, des vidéos et des images. Le modèle est proposé à 0,40 dollar par million de tokens en entrée et 1,60 dollar en sortie, soit 60 % moins cher que son prédécesseur Qwen3.7-Max, sorti quelques semaines plus tôt mais limité au texte seul. Avec une fenêtre de contexte d'un million de tokens et jusqu'à 256 000 tokens dédiés au raisonnement interne, Qwen3.7-Plus cible explicitement les usages agentiques complexes, comme la migration de bases de code ou l'analyse automatisée de documents visuels. Le modèle intègre aussi un paramètre API baptisé "preservethinking", qui conserve les blocs de raisonnement internes entre les tours de conversation, évitant à l'agent de perdre le fil de sa logique au milieu d'une tâche longue. La rupture la plus notable n'est pas technique : Qwen3.7-Plus est distribué sous licence commerciale fermée, uniquement via l'API Alibaba Cloud et le service Qwen Chat. C'est un virage stratégique majeur pour un groupe qui avait construit sa réputation internationale sur la publication de modèles open source puissants, proches de l'état de l'art. Des entreprises comme Airbnb s'appuyaient justement sur ces modèles en accès libre. Pour les développeurs et organisations qui avaient intégré l'open source Qwen dans leurs infrastructures, ce changement de cap impose soit de migrer vers l'API payante d'Alibaba, soit de se tourner vers un concurrent. Sur le plan tarifaire, Qwen3.7-Plus reste compétitif face à des modèles comme MiniMax-M3 (0,30/1,20 dollar) ou Gemini 3.1 Flash-Lite de Google (0,25/1,50 dollar), mais il est dépassé en prix bas par DeepSeek-V4-Flash (0,14/0,28 dollar). Ce lancement s'inscrit dans une dynamique de consolidation des stratégies de monétisation chez les grands labos chinois. Après avoir inondé le marché de modèles open source pour gagner en adoption et en réputation, Alibaba suit une trajectoire similaire à celle d'OpenAI ou Anthropic : garder les modèles les plus capables derrière un accès payant. La fonctionnalité "preservethinking" avait déjà été introduite avec la génération Qwen 3.6, sur les modèles open weight Qwen3.6-27B et le Max propriétaire, signe que la stratégie de différenciation entre open et closed s'élabore depuis plusieurs mois. Avec la course aux modèles multimodaux et agentiques qui s'accélère, l'enjeu pour Alibaba est de ne pas perdre les développeurs séduits par l'ouverture, tout en capturant les revenus que seule une offre cloud fermée peut générer à grande échelle.

UELes développeurs et organisations européennes ayant intégré les modèles Qwen open source dans leurs infrastructures devront migrer vers l'API payante d'Alibaba Cloud ou se tourner vers des alternatives, représentant une contrainte opérationnelle et potentiellement financière concrète.

LLMsOpinion
1 source
JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles
15MarkTechPost 

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking. Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle. Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

UEJetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

LLMsOpinion
1 source
MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes
16MarkTechPost 

MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes

MiniMax a lancé le 1er juin 2026 son nouveau modèle MiniMax M3, successeur du M2.7 dans la série M. La nouveauté architecturale centrale est la MSA (MiniMax Sparse Attention), un mécanisme d'attention creuse qui permet une fenêtre de contexte d'un million de tokens tout en ramenant le coût de calcul par token à seulement 1/20e de celui des modèles M2 précédents à cette longueur. Concrètement, l'étape de préfill est accélérée de plus de 9 fois et le décodage de plus de 15 fois au niveau du million de tokens. M3 intègre nativement la compréhension d'images et de vidéos ainsi que le contrôle de l'ordinateur de bureau, sans modules additionnels. Le modèle est disponible immédiatement via l'API MiniMax, MiniMax Code et le MiniMax Token Plan. Les poids open-weight et le rapport technique complet sont annoncés dans les dix jours suivant la sortie. Sur les benchmarks de programmation autonome, M3 atteint 59 % sur SWE-Bench Pro, surpassant GPT-5.5 et Gemini 3.1 Pro et s'approchant de Claude Opus 4.7. Il obtient également 66 % sur Terminal-Bench 2.1, 74,2 % sur MCP Atlas, le meilleur score parmi les modèles évalués sur Claw-Eval, et 70,06 % de taux de complétion sur OSWorld-Verified, un benchmark de contrôle d'interface utilisateur sur 361 tâches. Pour les développeurs et les équipes d'ingénierie, ces chiffres signifient un modèle capable d'ingérer des bases de code complètes en contexte, de raisonner sur de longues séquences vidéo et de mener des workflows de développement multi-tours sans perdre la cohérence. MiniMax a également conçu un simulateur d'interaction développeur pour l'entraînement, reproduisant des scénarios réels comme l'élaboration d'exigences, les corrections itératives et les changements de tâche en cours de session, afin de réduire l'écart entre performances sur benchmarks statiques et usages réels en production. L'architecture MSA s'attaque à un problème structurel des transformers classiques : la complexité quadratique de l'attention standard, qui rend le traitement de très longs contextes prohibitif en calcul et en mémoire. Là où des approches concurrentes comme DSA ou MoBA proposent des solutions partielles, MiniMax affirme que MSA partitionne le cache KV de manière plus précise, chaque bloc n'étant lu qu'une seule fois avec un accès mémoire contigu grâce à l'approche dite "KV outer gather Q". L'équipe reporte un gain supérieur à 4 fois par rapport aux implémentations open-source de référence comme Flash-Sparse-Attention. M3 s'inscrit dans une compétition intense entre labs pour combiner grande fenêtre de contexte, multimodalité native et capacités agentiques dans un seul modèle open-weight, segment où MiniMax revendique une première mondiale. La publication prochaine des poids permettra à la communauté de vérifier ces affirmations de manière indépendante, ce qui constituera un test décisif pour la crédibilité du modèle face à Gemini 2.5 Pro, aux modèles Claude ou aux futurs lancements de Qwen.

LLMsActu
1 source
MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût
17VentureBeat AI 

MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût

La startup chinoise MiniMax a lancé dimanche soir son modèle de langage MiniMax-M3, se positionnant d'emblée comme une alternative redoutable aux modèles propriétaires américains. Disponible via l'API MiniMax à un tarif promotionnel de 0,30 dollar par million de tokens en entrée et 1,20 dollar par million en sortie, le modèle affiche des performances supérieures à GPT-5.5 d'OpenAI et à Gemini 3.1 Pro de Google sur plusieurs benchmarks clés, pour 5 à 10 % de leur coût. Même à plein tarif, 0,60 dollar l'entrée et 2,40 dollars la sortie, M3 revient à seulement 8 à 20 % du prix des grands modèles propriétaires concurrents. L'entreprise a également annoncé la mise à disposition sous licence open source avec poids ouverts dans les dix prochains jours, permettant aux entreprises de télécharger et personnaliser le modèle gratuitement. M3 intègre par ailleurs une fenêtre de contexte d'un million de tokens, une multimodalité native, et des capacités avancées en codage et en traitement de tâches agentiques, avec un abonnement mensuel à partir de 20 dollars. Ce lancement remet en question une règle non écrite du secteur : les développeurs devaient jusqu'ici choisir entre des modèles fermés très performants mais coûteux, ou des modèles open source accessibles mais limités sur les raisonnements complexes et les longues séquences. MiniMax-M3 brouille cette frontière en combinant performance de pointe et coût marginal, ce qui pourrait redistribuer les cartes pour les équipes de développement cherchant à intégrer des capacités d'IA avancées sans exploser leurs budgets d'inférence. La possibilité de déployer les poids en local renforce encore l'intérêt pour les entreprises soucieuses de confidentialité ou cherchant à s'affranchir de dépendances API. Cette percée s'inscrit dans un mouvement plus large de rattrapage des laboratoires chinois face aux géants américains. DeepSeek, Alibaba avec Qwen, Moonshot via Kimi et désormais MiniMax publient à un rythme soutenu des modèles compétitifs à des prix agressifs, alimentant une guerre tarifaire qui contraint OpenAI, Google et Anthropic à revoir leurs propres grilles. Sur le plan technique, M3 repose sur une architecture originale baptisée MiniMax Sparse Attention, qui rompt avec les mécanismes d'attention traditionnels dont le coût de calcul croît quadratiquement avec la longueur des séquences. En découpant les matrices clé-valeur en blocs ciblés lus une seule fois, cette approche permet d'être plus de quatre fois plus rapide que des alternatives open source comparables sur de longues séquences. La disponibilité imminente des poids ouverts pourrait transformer M3 en référence de facto pour les entreprises cherchant un modèle frontier déployable en interne.

UELes développeurs et entreprises européens disposent d'une alternative frontier open source déployable localement, réduisant la dépendance aux API américaines et les coûts d'inférence de 80 à 95 %.

💬 C'est le lancement qui va forcer OpenAI et Google à bouger leurs prix, et cette fois c'est difficile à ignorer. 5 à 10 % du coût avec les benchmarks qui suivent, et les poids ouverts dans dix jours pour déployer en local, si tu travailles avec des LLMs tu vas regarder ça de près. Reste à voir ce que ça donne en conditions réelles, mais l'architecture Sparse Attention sur les longues séquences, c'est une vraie proposition technique, pas juste du dumping tarifaire.

LLMsOpinion
1 source
Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source
18The Decoder 

Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source

Lors du GTC Taipei, Nvidia a dévoilé plusieurs modèles destinés à accélérer son offensive dans l'IA physique. La conférence a été marquée par trois annonces majeures : Cosmos 3, un nouveau modèle de monde (world model) de dernière génération, Alpamayo 2 Super, une version considérablement élargie du modèle de conduite autonome, et une plateforme de référence ouverte pour robots humanoïdes. Ces annonces s'inscrivent dans la stratégie de Jensen Huang de faire de Nvidia le fournisseur incontournable de l'infrastructure pour les systèmes physiques intelligents. Ces outils visent des marchés en pleine explosion : la robotique industrielle, les véhicules autonomes et les systèmes de surveillance vidéo intelligents. Un world model comme Cosmos 3 permet à des robots ou des voitures autonomes de simuler leur environnement et d'anticiper les conséquences de leurs actions, une brique fondamentale pour passer de la démonstration laboratoire au déploiement à grande échelle. La plateforme humanoïde ouverte, quant à elle, vise à standardiser le développement matériel et logiciel pour les constructeurs de robots à deux jambes, réduisant les coûts d'entrée pour les startups du secteur. Nvidia capitalise ici sur sa domination dans les GPU d'entraînement pour étendre son empreinte vers l'inférence embarquée et les systèmes temps-réel. La concurrence s'intensifie avec des acteurs comme Qualcomm et Intel sur les puces pour véhicules autonomes, tandis que des entreprises comme Figure, Boston Dynamics ou 1X Technologies attendent des plateformes logicielles communes pour accélérer leurs développements. GTC Taipei confirme que Nvidia ne veut pas seulement alimenter les data centers de l'IA, il veut aussi être le cerveau des machines qui bougent.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW, Volkswagen) et les startups robotiques européennes pourraient bénéficier de la plateforme humanoïde ouverte pour réduire leurs coûts d'entrée et accélérer leurs développements en robotique industrielle et véhicules autonomes.

RobotiqueOpinion
1 source
MiniMax lance M3 : le modèle Open Weight le plus puissant jamais créé ?
19Le Big Data 

MiniMax lance M3 : le modèle Open Weight le plus puissant jamais créé ?

Le 1er juin 2026, la société chinoise MiniMax a lancé M3, son nouveau modèle d'intelligence artificielle à poids ouverts. Il s'agit du premier modèle open weight à combiner trois capacités jusqu'ici réservées aux systèmes propriétaires : une fenêtre contextuelle d'un million de jetons, des performances de pointe en programmation et en agents autonomes, ainsi qu'une prise en charge native du texte et des images. Sur SWE-Bench Pro, le benchmark de référence pour la résolution de problèmes logiciels réels, M3 obtient 59 %, dépassant GPT-5.5 et Gemini 3.1 Pro selon MiniMax. Il atteint également 66 % sur Terminal-Bench 2.1, 74,2 % sur Atlas MCP et 83,5 sur BrowseComp, score qui surpasserait Claude Opus 4.7. Le modèle est déjà accessible via l'API officielle de MiniMax et son agent de développement MiniMax Code, tandis que les poids ouverts seront publiés sur Hugging Face et GitHub dans une dizaine de jours. Ce lancement est significatif parce qu'il réduit concrètement la barrière entre modèles open source et systèmes propriétaires de premier rang. L'architecture repose sur une technologie maison appelée MiniMax Sparse Attention (MSA), qui identifie les informations pertinentes avant de concentrer les calculs sur elles : résultat, le coût de calcul par jeton est divisé par vingt sur un contexte d'un million de jetons, le traitement des entrées est neuf fois plus rapide que sur la génération précédente, et la génération de réponses gagne un facteur supérieur à quinze. La vitesse de production avoisine 100 jetons par seconde, environ trois fois celle de Claude Opus. Pour les développeurs et les entreprises qui cherchent à déployer des agents autonomes sans dépendre d'APIs propriétaires à coût élevé, M3 représente une option crédible et, surtout, inspecTable. MiniMax est une startup fondée à Shanghai qui opère depuis plusieurs années dans l'ombre des géants américains et de ses concurrents chinois comme Baidu ou Zhipu AI. Avec M3, elle entre directement en compétition avec Anthropic, Google et OpenAI sur le segment haut de gamme, mais avec la carte distinctive de l'ouverture des poids. Le contexte réglementaire et géopolitique autour de l'IA chinoise reste tendu, ce qui rend d'autant plus remarquable qu'une entreprise de ce pays publie un modèle en open weight à ce niveau de performance. Des validations indépendantes seront nécessaires : une partie des benchmarks ont été conduits sur l'infrastructure de MiniMax elle-même. La publication imminente des poids permettra à la communauté de vérifier ces affirmations, et les semaines qui suivent diront si M3 tient ses promesses dans des conditions réelles d'utilisation.

UEL'arrivée d'un modèle open weight performant réduit la dépendance des entreprises et développeurs européens aux APIs propriétaires américaines à coût élevé.

💬 Un million de jetons, des scores d'agent au niveau des meilleurs modèles fermés, et les poids open source dans dix jours : si tout ça se confirme, c'est une vraie gifle pour les APIs propriétaires. Le calcul change pour ceux qui veulent déployer des agents sans facturer à chaque appel. Les benchmarks sont en partie auto-déclarés, donc on attend les poids sur HuggingFace, mais là MiniMax joue dans la cour des grands pour de bon.

LLMsOpinion
1 source
L'architecture radicale de DeepSeek fracasse l'avantage concurrentiel de Silicon Valley sur les tokens
20VentureBeat AI 

L'architecture radicale de DeepSeek fracasse l'avantage concurrentiel de Silicon Valley sur les tokens

DeepSeek a officialisé cette semaine la pérennisation de sa réduction de prix de 75 % sur son modèle phare V4 Pro, transformant ce qui ressemblait à une offensive temporaire en une rupture structurelle du marché. Concrètement, V4 Pro est désormais sept fois moins cher en entrées et dix-sept fois moins cher en sorties que Claude Sonnet d'Anthropic ou le GPT-5.5-Med d'OpenAI. La version allégée DeepSeek V4 Flash, optimisée pour la vitesse, est quant à elle dix à vingt-cinq fois moins chère que Claude Haiku. En Chine, le prix de lecture du cache atteint un niveau quatre-vingt-sept fois inférieur à celui des grandes plateformes cloud occidentales, un écart si brutal que Xiaomi vient d'aligner sa propre architecture MiMo sur ce même barème tarifaire. Ces deux modèles sont distribués en open-weight sous licence MIT, offrant aux entreprises une liberté totale de déploiement. Malgré ce positionnement prix, V4 Pro affiche 80,6 % sur le benchmark SWE-bench Verified pour les tâches d'agents de code, et 87,5 sur l'indice MMLU-Pro, des scores proches des meilleurs modèles occidentaux. L'impact sur les entreprises utilisatrices est déjà tangible. Uber a révélé avoir épuisé l'intégralité de son budget 2026 alloué à Claude Code et Cursor en seulement quatre mois, son directeur des opérations jugeant les coûts liés à l'usage intensif de tokens de plus en plus difficiles à justifier. Airbnb préfère depuis longtemps des alternatives plus rapides et moins chères comme Qwen d'Alibaba plutôt que de déployer massivement les modèles d'OpenAI en production. Pinterest est allé encore plus loin : son directeur technique Matt Madrigal a confirmé que l'entreprise a intégralement misé sur l'open source, en affinant Qwen sur son graphe de préférences propriétaire pour réduire ses coûts de 90 %. La baisse de prix de DeepSeek rend de tels arbitrages encore plus attractifs, accélérant la commoditisation de la couche API à fort volume. Cette dynamique s'inscrit dans un contexte de pression croissante sur les grands laboratoires occidentaux, dont les investissements en infrastructure se chiffrent en dizaines de milliards de dollars. OpenAI, dont le modèle économique repose largement sur des flux API génériques, apparaît plus exposée qu'Anthropic, dont l'offre est davantage intégrée dans des workflows logiciels différenciés. Du côté de l'adoption en entreprise, les freins demeurent importants : pour les secteurs réglementés américains, finance, santé, défense, l'utilisation de modèles chinois soulève des questions de conformité, de risques liés à la chaîne d'approvisionnement logicielle et de potentielles sanctions fédérales. L'architecture open-weight permet certes un hébergement local sans transfert de données vers des serveurs étrangers, mais les comités de conformité restent prudents. Le marché semble donc se scinder en deux : un segment premium pour les workflows critiques, et une couche agentique de fond entièrement commoditisée par les poids ouverts.

UELa réduction tarifaire permanente de DeepSeek pourrait réduire de 75 à 90 % les coûts d'infrastructure LLM pour les entreprises européennes, mais les secteurs réglementés devront évaluer les risques de conformité liés à l'utilisation de modèles chinois en open-weight.

💬 Ce qui me frappe, c'est pas les benchmarks, c'est Uber qui a cramé son budget Claude Code annuel en quatre mois. La baisse de 75 % de DeepSeek est permanente maintenant, ce qui veut dire que les arbitrages qu'Airbnb ou Pinterest font depuis un moment vont s'accélérer partout. Le marché API générique est commoditisé, la différence se jouera ailleurs.

BusinessOpinion
1 source
Mistral rejoint Harvey pour les usages IA en entreprise
21Le Big Data 

Mistral rejoint Harvey pour les usages IA en entreprise

Harvey, la plateforme d'intelligence artificielle dédiée au secteur juridique, a officialisé le 26 mai 2026 un partenariat avec Mistral AI pour intégrer les modèles de la startup française à son environnement multi-modèles. Ce lancement cible en priorité les clients européens de Harvey, dont la plateforme permet déjà aux cabinets d'avocats et directions juridiques d'automatiser des tâches complexes : analyse contractuelle, recherche documentaire, synthèse de dossiers, assistance à la rédaction. L'ajout de Mistral enrichit ce dispositif en proposant une couche supplémentaire de personnalisation, notamment grâce aux capacités multilingues de la startup française, sa gestion des contextes longs et son efficacité d'exécution sur de grands volumes de documents multi-juridictions. Harvey précise que ce déploiement accompagne l'ouverture récente de son bureau parisien et le renforcement de ses investissements en France et dans l'Union européenne. Ce partenariat répond à une évolution profonde des attentes des grandes entreprises vis-à-vis de l'IA générative. Transparence des modèles, localisation des données, conformité réglementaire et gouvernance ne sont plus des options mais des critères décisifs, en particulier dans des secteurs sensibles comme le droit. Les modèles Mistral sont reconnus pour leur approche "open-weight", qui offre une visibilité accrue sur le fonctionnement et l'évaluation des systèmes, un atout de poids pour des organisations soumises à des obligations strictes en matière de sécurité et de conformité. Harvey ne cherche pas à remplacer un fournisseur d'IA par un autre : sa plateforme est conçue pour sélectionner automatiquement le modèle le plus adapté à chaque tâche, construisant ainsi une architecture résiliente et performante pour ses clients entreprises. Ce mouvement s'inscrit dans un contexte plus large de souveraineté technologique en Europe, où les acteurs locaux comme Mistral gagnent rapidement en crédibilité face aux géants américains. Les entreprises européennes ne se contentent plus de chercher les modèles les plus puissants : elles veulent savoir où transitent leurs données, quels modèles les traitent et dans quelles conditions ces systèmes sont déployés. Harvey, dont la plateforme multi-modèles inclut déjà des solutions de plusieurs grands fournisseurs, positionne Mistral comme la réponse naturelle aux exigences du marché européen. Le partenariat marque ainsi une étape dans la stratégie d'expansion européenne de l'éditeur américain, tout en consolidant la place de Mistral comme acteur incontournable de l'IA d'entreprise sur le Vieux Continent.

UELe déploiement de Mistral chez Harvey cible directement les clients européens du secteur juridique, renforçant la souveraineté technologique de l'UE en offrant aux cabinets d'avocats et directions juridiques européens un modèle français conforme RGPD et AI Act pour traiter leurs données sensibles.

💬 Mistral dans le juridique, c'était couru d'avance. Un cabinet d'avocats qui traite des dossiers clients via GPT-4 sur des serveurs américains, ça fait frémir les RSSI, donc là l'argument souveraineté pèse vraiment. Harvey a pigé que pour exister en Europe, il fallait jouer cette carte.

BusinessOpinion
1 source
Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio
22MarkTechPost 

Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio

Stability AI a publié cette semaine les poids ouverts de Stable Audio 3, une famille de modèles de diffusion latente dédiés à la génération et à l'édition audio. La gamme comprend quatre variantes : deux modèles "small" de 459 millions de paramètres (l'un spécialisé musique, l'autre effets sonores), un modèle "medium" de 1,4 milliard de paramètres capable de générer jusqu'à 6 minutes 20 secondes de musique et d'effets sonores, et un modèle "large" de 2,7 milliards de paramètres réservé à une licence entreprise. Les poids des variantes small et medium sont disponibles gratuitement sur Hugging Face. Tous les modèles produisent de l'audio stéréo en 44,1 kHz, prennent en charge des sorties de longueur variable, l'édition par inpainting, et une inférence rapide. L'architecture repose sur deux composants distincts. Le premier est SAME (Semantically-Aligned Music autoEncoder), un encodeur qui compresse l'audio en une représentation latente avec un ratio de downsampling de 4096x, nettement supérieur aux ratios habituels de 1024x à 2048x dans les systèmes concurrents. Cette compression élevée réduit suffisamment les séquences latentes pour que la génération de longue durée tourne sur du matériel grand public. Le second composant est un transformeur de diffusion qui opère sur ces latents, conditionné par le texte via un encodeur T5Gemma gelé, par la durée encodée en features de Fourier, et par des masques d'inpainting pour l'édition. Les modèles medium et large utilisent une "differential attention", une technique calculant deux cartes d'attention parallèles pour améliorer la précision du conditionnement. Cette publication intervient dans un contexte de compétition intense sur la génération audio par IA, où des acteurs comme Suno, Udio ou ElevenLabs ont imposé des standards élevés en termes de qualité et de facilité d'usage, mais avec des modèles entièrement fermés. En rendant ses poids accessibles, Stability AI maintient une posture d'ouverture qui lui a valu une réputation dans la communauté des chercheurs, malgré les turbulences financières et organisationnelles que l'entreprise a traversées ces deux dernières années. L'accompagnement d'un article de recherche technique détaillé sur arXiv renforce cette crédibilité académique. La capacité à éditer de l'audio existant via inpainting, et non seulement à en générer, représente une avancée pratique pour les professionnels du son, de la post-production et des jeux vidéo. La disponibilité d'un modèle small optimisé pour l'inférence CPU ouvre également la voie à des intégrations locales sans GPU, ce qui élargit considérablement le cercle des utilisateurs potentiels.

UELa mise à disposition des poids ouverts sur Hugging Face (plateforme française) facilite l'adoption par les développeurs et studios européens pour des usages en post-production et jeux vidéo, sans dépendance aux API américaines fermées.

CréationActu
1 source
Des millions d'agents IA menacés par une faille critique dans un paquet open source
23Ars Technica AI 

Des millions d'agents IA menacés par une faille critique dans un paquet open source

Des millions d'agents et d'outils d'intelligence artificielle sont exposés à une faille critique découverte dans Starlette, un framework open source téléchargé 325 millions de fois par semaine selon son propre développeur. La vulnérabilité permet à des attaquants de s'introduire dans les serveurs qui hébergent ces agents et de dérober des données sensibles ainsi que des identifiants donnant accès à des services tiers. Starlette est une implémentation de l'ASGI (Asynchronous Server Gateway Interface), une interface conçue pour traiter efficacement de très nombreuses requêtes simultanées. Il constitue le socle de FastAPI et de nombreux autres frameworks Python très répandus, si bien que des milliers de projets open source dépendant de Starlette se retrouvent également vulnérables. La gravité de la situation tient à ce que Starlette, et plus largement l'écosystème ASGI, fournit l'infrastructure sur laquelle s'appuient les serveurs MCP (Model Context Protocol). Ce protocole, adopté par les principaux fournisseurs d'agents IA, permet à ces agents d'accéder à des ressources externes : bases de données utilisateurs, messageries, agendas et bien d'autres services. Pour fonctionner, les serveurs MCP stockent les identifiants de connexion à chacun de ces systèmes, ce qui en fait des cibles particulièrement lucratives pour un attaquant. La faille serait en outre triviale à exploiter, ce qui signifie qu'elle ne nécessite pas de compétences avancées pour être mise en oeuvre. Cette découverte illustre les risques systémiques liés à la dépendance de l'écosystème IA moderne vis-à-vis de composants open source largement partagés. Le MCP, popularisé par Anthropic et rapidement adopté par les grandes plateformes, a accéléré l'intégration des agents IA dans des environnements sensibles, sans que les audits de sécurité des couches sous-jacentes aient suivi le même rythme. Une seule bibliothèque compromise peut ainsi propager une vulnérabilité à travers toute une chaîne de dépendances, touchant simultanément des millions de déploiements. Les équipes de sécurité et les développeurs utilisant FastAPI ou tout projet fondé sur Starlette sont invités à appliquer les correctifs dès leur disponibilité et à auditer les identifiants potentiellement exposés.

UELes développeurs français et européens utilisant FastAPI ou tout projet basé sur Starlette pour leurs agents IA doivent appliquer les correctifs dès que disponibles et auditer immédiatement les identifiants potentiellement exposés dans leurs serveurs MCP.

💬 325 millions de téléchargements par semaine, ça donne une idée de la surface d'attaque. On a adopté le MCP à toute vitesse, en empilant des agents au-dessus de FastAPI sans jamais trop regarder ce qui était en dessous. Si tu as un serveur MCP en prod, tu vérifies ta version de Starlette maintenant, pas ce soir.

SécuritéActu
1 source
Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU
24VentureBeat AI 

Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU

Moins d'une semaine après avoir bouclé la plus grande introduction en bourse du secteur tech en 2026, Cerebras Systems a annoncé lundi qu'il fait tourner Kimi K2.6, un modèle open-weight de mille milliards de paramètres développé par la société pékinoise Moonshot AI, à près de 1 000 tokens par seconde pour ses clients entreprises. Le chiffre exact, vérifié de manière indépendante par la firme de benchmarking Artificial Analysis, s'établit à 981 tokens par seconde en sortie, soit 6,7 fois plus rapide que le meilleur fournisseur cloud sur GPU et 23 fois plus rapide que la médiane. Sur une requête d'assistance au code impliquant 10 000 tokens en entrée, Cerebras a livré la réponse complète en 5,6 secondes, contre 163,7 secondes sur l'endpoint officiel de Kimi, soit une amélioration d'un facteur 29. La société, basée à Sunnyvale et désormais valorisée 95 milliards de dollars après avoir levé 5,55 milliards lors de son IPO, signe ici son entrée en production sur les modèles de taille maximale, un palier qu'elle n'avait jamais encore franchi. L'enjeu dépasse la performance brute. Kimi K2.6 est l'un des premiers modèles open-weight que les entreprises peuvent crédiblement utiliser comme alternative aux API fermées d'Anthropic ou d'OpenAI, notamment pour les tâches de codage et d'agents autonomes qui représentent aujourd'hui les cas d'usage les plus rentables des grands modèles de langage. James Wang, directeur marketing produit de Cerebras, est direct : les clients sont motivés avant tout par le besoin d'une alternative à Anthropic, dont les modèles sont excellents mais coûteux et régulièrement saturés. Il cite l'exemple d'une application tombée en panne un week-end faute de capacité disponible sur l'API d'Anthropic, une mésaventure qui résonne fortement auprès des acheteurs en entreprise. La rapidité de Cerebras n'est donc pas qu'un argument marketing : dans les workflows agentiques, où chaque seconde d'attente se multiplie par des dizaines d'appels successifs, la vitesse d'inférence devient un avantage compétitif structurel. Kimi K2.6 a été publié le 20 avril par Moonshot AI, une startup fondée en 2023 par des anciens de l'université Tsinghua et considérée comme l'une des entreprises "AI Tiger" de Chine. Le modèle utilise une architecture Mixture-of-Experts avec 32 milliards de paramètres activés par token sur un total de 1 000 milliards, 384 experts dont 8 sélectionnés par passe, et une fenêtre de contexte de 256 000 tokens. Il occupe la première place sur SWE-Bench Pro avec un score de 58,6, dépassant Claude Opus 4.6 et égalant GPT-5.4. Le choix de ce modèle chinois comme vitrine d'un fabricant de puces américain soulève néanmoins une dimension géopolitique que l'article laisse en suspens : Cerebras joue ici à la fois la carte de la performance et celle de l'ouverture, dans un contexte de tensions croissantes autour des technologies d'IA entre les deux pays.

UELes entreprises européennes dépendantes de solutions cloud d'inférence LLM disposent d'une nouvelle alternative matérielle avec des vitesses vérifiées jusqu'à 6,7 fois supérieures aux meilleurs fournisseurs GPU, ce qui peut réduire les risques de saturation de capacité pour les workflows agentiques.

💬 981 tokens par seconde, vérifié par un tiers indépendant, sur un modèle à 1000 milliards de paramètres. Dans les workflows agentiques où chaque appel LLM en déclenche dix autres, c'est pas un argument marketing, c'est du cash économisé et des pannes évitées. Et le truc le plus savoureux, c'est qu'un fabricant de puces américain fraîchement introduit en bourse choisit un modèle chinois comme vitrine, et que l'article passe presque dessus comme si c'était un détail.

InfrastructureOpinion
1 source
L'écart se creuse-t-il entre Anthropic et les modèles open source ?
25The Information AI 

L'écart se creuse-t-il entre Anthropic et les modèles open source ?

La montée en flèche des coûts des modèles d'IA frontier pousse plusieurs développeurs à envisager un repli vers l'open source. Des entreprises aussi sophistiquées qu'Uber ont brûlé l'intégralité de leur budget annuel en IA en quelques mois seulement, un dérapage qui illustre la pression financière que font peser des fournisseurs comme Anthropic et OpenAI. En réponse, Uber et Airbnb auraient déjà commencé à déléguer les tâches les plus simples à des modèles open source moins coûteux, tout en conservant les modèles frontier pour les cas d'usage complexes. Un dirigeant d'une grande entreprise cliente d'OpenAI et d'Anthropic a confié avoir testé Kimi K2.6 de Moonshot AI ainsi que DeepSeek V4, deux modèles open source récents qui affichent des résultats solides sur les benchmarks standards. Le verdict reste mitigé. Si ces modèles s'en sortent correctement sur des questions de surface et des exercices de référence, ils peinent dès que l'interrogation devient plus exigeante. L'exemple donné est parlant : un modèle peut résoudre un casse-tête logique classique, mais échoue dès qu'on modifie légèrement les hypothèses de départ. Cette fragilité dans le raisonnement en profondeur constitue un obstacle réel pour les entreprises dont les cas d'usage requièrent une analyse rigoureuse, des relances pertinentes ou une cohérence sur des chaînes de questions complexes. Le fossé qualitatif entre l'open source et les modèles frontier semble donc persistant, malgré les progrès rapides observés ces derniers mois. L'essor de l'open source n'en reste pas moins une tendance structurelle. Les données du fournisseur d'inférence OpenRouter indiquent une croissance globale de l'utilisation de ces modèles, signe que le marché se segmente progressivement. Les grandes entreprises adoptent une stratégie hybride : modèles bon marché pour le volume, modèles puissants pour la valeur ajoutée. La question centrale devient alors de savoir si des acteurs comme DeepSeek ou Moonshot AI pourront combler l'écart de raisonnement qui les sépare encore d'Anthropic et d'OpenAI, et à quelle vitesse.

UELes entreprises européennes clientes d'Anthropic ou OpenAI font face aux mêmes pressions budgétaires et pourraient adopter la même stratégie hybride open source / frontier pour maîtriser leurs coûts IA.

LLMsOpinion
1 source
OpenAI publie Symphony en open source : un SPEC.md pour l'orchestration d'agents de codage autonomes
26InfoQ AI 

OpenAI publie Symphony en open source : un SPEC.md pour l'orchestration d'agents de codage autonomes

OpenAI a publié en open source Symphony, un orchestrateur d'agents de codage autonomes accompagné d'une spécification formelle baptisée SPEC.md. Le système utilise des outils de gestion de projet, comme les gestionnaires de tickets, comme plan de contrôle pour coordonner plusieurs agents travaillant en parallèle. Concrètement, Symphony découpe le travail en "tâches" distinctes, chacune confiée à un agent dédié qui progresse jusqu'à l'achèvement sans intervention humaine continue. Une fois la tâche terminée, un développeur humain examine le résultat avant de valider ou corriger. Ce modèle rompt avec l'approche actuelle où les développeurs supervisent activement chaque session de codage assistée par IA. Avec Symphony, un ingénieur peut déléguer simultanément plusieurs blocs de travail à une flotte d'agents autonomes, ce qui multiplie potentiellement la capacité de production d'une équipe sans augmenter ses effectifs. Pour les entreprises tech, cela annonce des pipelines de développement logiciel beaucoup plus automatisés, où l'humain intervient surtout en phase de validation plutôt qu'en pilotage continu. Symphony émerge dans un contexte de compétition intense autour des agents de codage autonomes. OpenAI affronte Anthropic et son assistant Claude, Google avec Gemini Code Assist, ainsi que des startups comme Cognition AI dont l'agent Devin cible explicitement ce marché. En diffusant Symphony sous forme de spécification ouverte, OpenAI tente d'influencer les standards de l'industrie et d'encourager l'adoption de son approche d'orchestration par d'autres équipes et plateformes. La prochaine étape sera de voir si SPEC.md s'impose comme référence, ou si chaque acteur développe son propre modèle propriétaire.

💬 OpenAI publie une spec ouverte, pas juste du code, et c'est exactement la stratégie qu'on adopte quand on veut que l'industrie entière s'aligne sur ton modèle d'orchestration plutôt que sur celui du voisin. Le truc intéressant dans Symphony, c'est ce glissement : le dev ne pilote plus en continu, il valide à la fin, comme un lead qui fait des code reviews plutôt que du pair-programming permanent. Ça ressemble à du vrai changement de workflow, pas du gadget.

OutilsOutil
1 source
X-OmniClaw : l'agent IA Android open source d'Oppo
27The Decoder 

X-OmniClaw : l'agent IA Android open source d'Oppo

L'équipe Multi-X d'Oppo a publié X-OmniClaw, un agent IA open source conçu pour fonctionner directement sur les appareils Android. Contrairement aux approches concurrentes qui dupliquent l'interface du téléphone dans le cloud, X-OmniClaw exploite les capteurs physiques de l'appareil, caméra, écran et microphone, pour percevoir l'environnement et agir dans de vraies applications. Le traitement lourd de raisonnement est délégué au cloud, mais les données sensorielles restent locales. Le code source est disponible publiquement sur GitHub. Ce positionnement "local-first" représente un avantage significatif en matière de confidentialité et de latence. L'agent peut interagir avec n'importe quelle application installée sans nécessiter d'intégration spécifique de la part des développeurs, ce qui élargit considérablement son champ d'action. Sa fonctionnalité de "clonage de parcours" est particulièrement notable : chaque séquence de tapotements qu'il exécute est enregistrée comme une compétence réutilisable, permettant ensuite d'atteindre des pages profondément imbriquées d'une application via un simple deeplink, sans rejouer toute la navigation. X-OmniClaw s'inscrit dans une course technologique intense autour des agents mobiles autonomes. Apple, Google, Samsung et Microsoft investissent massivement dans ce domaine, mais la plupart de leurs solutions reposent sur des environnements cloud contrôlés. En choisissant l'open source et l'exécution locale, Oppo mise sur la communauté des développeurs pour enrichir rapidement les capacités de l'agent, tout en se différenciant sur la question de la vie privée, un argument commercial de plus en plus décisif sur le marché des smartphones haut de gamme.

UEL'approche 'local-first' de X-OmniClaw, qui conserve les données sensorielles sur l'appareil, s'aligne avec l'esprit du RGPD et pourrait servir de référence pour les développeurs européens travaillant sur des agents IA mobiles respectueux de la vie privée.

💬 Le clonage de parcours, c'est le truc que j'attendais sans le savoir : l'agent mémorise ses propres gestes et les rejoue comme des macros, sans toucher au code de l'app. Oppo mise tout sur l'open source pour exister face aux géants, et c'est probablement le seul angle qui peut fonctionner pour eux. Bon, maintenant il faut que la communauté suive.

OutilsOutil
1 source
Avancées récentes en architectures LLM : partage KV, mHC et attention compressée
28Ahead of AI 

Avancées récentes en architectures LLM : partage KV, mHC et attention compressée

Depuis début avril 2026, une vague de nouveaux modèles de langage open-weight a déferlé, et une tendance architecturale se dégage clairement : l'efficacité sur les contextes longs. Google a ouvert le bal avec sa suite Gemma 4, déclinée en quatre variantes, les modèles compacts E2B et E4B pour appareils embarqués, un modèle mixte d'experts (MoE) à 26 milliards de paramètres, et un modèle dense à 31 milliards. Dans la foulée, ZAYA1-8B, Laguna XS.2 et DeepSeek V4 ont chacun introduit leurs propres innovations internes. Ce que ces modèles ont en commun, c'est un ensemble de techniques nouvelles pour réduire la taille du KV-cache, le trafic mémoire et le coût du mécanisme d'attention, trois goulots d'étranglement devenus critiques à mesure que les modèles de raisonnement et les agents IA manipulent des séquences de plus en plus longues. Ces innovations architecturales ont des conséquences concrètes sur les coûts d'inférence et les capacités des systèmes déployés en production. Le partage de KV entre couches (cross-layer attention), utilisé dans Gemma 4 E2B et E4B, permet aux couches profondes de réutiliser les états clé-valeur calculés dans les couches précédentes, réduisant ainsi la mémoire nécessaire sur de longs contextes sans entraîner de pertes de qualité majeures. Laguna XS.2 adopte une approche différente, en allouant un budget d'attention variable selon les couches, certaines couches traitent l'intégralité du contexte, d'autres utilisent une fenêtre glissante restreinte. ZAYA1-8B intègre une attention convolutionnelle compressée, tandis que DeepSeek V4 combine une attention multi-head compressée (mHC) avec sa propre variante d'attention compacte. Ces techniques sont présentées comme des ajustements discrets dans les schémas d'architecture, mais représentent en réalité des choix de conception non triviaux avec des implications profondes sur la façon dont les modèles gèrent la mémoire à grande échelle. Ces développements s'inscrivent dans une évolution plus large du domaine : les workflows agentiques et les modèles de raisonnement, qui maintiennent des contextes de plusieurs dizaines de milliers de tokens sur de longues interactions, ont rendu les approches d'attention standard trop coûteuses à opérer efficacement. Le KV-cache, qui stocke les états intermédiaires pour éviter de recalculer l'attention à chaque nouveau token, peut consommer plusieurs gigaoctets de VRAM sur de longs contextes, un problème particulièrement aigu pour les déploiements locaux. Le fait que Google, DeepSeek et des acteurs plus modestes comme ZAYA1 et Laguna convergent tous vers des solutions similaires en quelques semaines suggère que l'optimisation de l'attention est devenue la priorité architecturale centrale de 2026, supplantant la simple course aux paramètres.

UELes modèles open-weight à architecture optimisée (Gemma 4, DeepSeek V4) permettent aux entreprises et institutions européennes de déployer des LLMs efficacement en local, réduisant leur dépendance aux infrastructures cloud américaines.

💬 Le KV-cache qui bouffe plusieurs Go de VRAM sur les longs contextes, c'était devenu le vrai goulot d'étranglement, et là on voit tout le monde arriver aux mêmes conclusions en même temps : Google, DeepSeek, Laguna. Quand des acteurs de cette envergure convergent indépendamment vers les mêmes solutions en quelques semaines, c'est pas du hasard. Ça va changer ce qu'on peut faire tourner en local.

LLMsOpinion
1 source
NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU
29MarkTechPost 

NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU

NVIDIA a publié SANA-WM, un modèle de monde open-source de 2,6 milliards de paramètres capable de générer une vidéo d'une minute en résolution 720p sur un seul GPU. Construit sur la base de code SANA-Video et disponible sur le dépôt GitHub NVlabs/Sana, ce modèle est un Diffusion Transformer (DiT) entraîné nativement pour la synthèse de séquences longues avec un contrôle de caméra 6-DoF à l'échelle métrique. Il propose trois modes d'inférence sur GPU unique : un générateur bidirectionnel pour la synthèse hors-ligne haute qualité, un générateur autorégressif par segments pour le déploiement séquentiel, et une variante distillée accélérée. Cette dernière génère un clip de 60 secondes en 720p en 34 secondes sur une RTX 5090 avec quantification NVFP4. Les modèles de monde représentent une brique technologique clé pour l'IA incarnée, la simulation et la robotique : ils permettent de prédire des séquences visuelles réalistes à partir d'une image initiale et d'un ensemble d'actions. Jusqu'ici, les systèmes open-source les plus compétitifs exigeaient soit plusieurs GPU pour l'inférence, soit une réduction de la résolution pour rester dans les budgets de calcul. SANA-WM s'attaque directement à ces deux contraintes, rendant accessible à un seul GPU une génération vidéo longue et haute définition. Pour les chercheurs en robotique et en simulation, cela réduit considérablement le coût d'expérimentation et ouvre la voie à des environnements synthétiques à grande échelle sans infrastructure dédiée. Sur le plan architectural, NVIDIA a résolu un problème fondamental : l'attention softmax standard a une complexité mémoire quadratique avec la longueur de séquence, ce qui devient prohibitif pour 961 frames latentes sur une vidéo de 60 secondes. SANA-WM remplace la majorité des blocs d'attention par des blocs Gated DeltaNet (GDN) frame-wise, une variante récurrente à taille d'état constante qui intègre un mécanisme de décroissance pour éviter l'accumulation de toutes les frames passées avec un poids égal, un problème qui dégradait les prédécesseurs sur les séquences longues. L'architecture finale entrelace 15 blocs GDN avec 5 blocs d'attention softmax sur 20 couches transformer au total. Le contrôle de caméra repose sur deux branches complémentaires : une branche grossière basée sur un encodage de position de caméra unifié (UCPE) pour capturer la trajectoire globale, et une branche fine utilisant des Plücker raymaps pour restaurer les mouvements de caméra intra-stride comprimés par le VAE vidéo. Ce modèle s'inscrit dans une dynamique d'accélération rapide des modèles de monde ouverts, où Google, Meta et des startups comme World Labs se positionnent également, faisant de la génération vidéo contrôlable un enjeu central de la prochaine génération d'IA.

UELes chercheurs européens en robotique et simulation peuvent désormais expérimenter avec des modèles de monde vidéo haute définition sur un seul GPU grand public, réduisant significativement les coûts d'infrastructure pour les laboratoires sans moyens de calcul dédiés.

💬 Un modèle de monde open-source qui tourne sur un seul GPU, c'est le genre de truc qui change vraiment les règles pour les labos sans cluster dédié. Ce qui me plaît, c'est le travail architectural sous-jacent : remplacer la majorité des blocs d'attention softmax par des GDN pour tenir sur des séquences longues sans exploser la mémoire, c'est pas trivial du tout. Reste à voir ce que ça donne sur une 4080 ordinaire, parce que la RTX 5090 c'est encore un autre monde.

CréationOpinion
1 source
Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE
30MarkTechPost 

Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE

Cline, l'agent de codage IA open-source utilisé par des millions de développeurs, a annoncé cette semaine une refonte architecturale majeure avec la sortie de @cline/sdk, un runtime d'agent TypeScript désormais disponible en open-source. Concrètement, l'équipe a extrait le coeur du moteur agentique, jusqu'ici étroitement couplé à l'extension VS Code, pour en faire un SDK indépendant, modulaire, sur lequel tous ses produits sont désormais reconstruits : l'extension VS Code, JetBrains, le CLI et le tableau Kanban. Le SDK est structuré en couches strictement ordonnées : @cline/shared (types, schémas, utilitaires), @cline/llms (passerelle vers Anthropic, OpenAI, Google, AWS Bedrock, Mistral, LiteLLM et tout endpoint compatible OpenAI), @cline/agents (boucle d'exécution stateless, compatible navigateur), et @cline/core (orchestration Node.js, sessions, stockage, télémétrie, plugins). Chaque couche est installable séparément, ce qui permet par exemple d'utiliser uniquement @cline/llms comme proxy LLM sans embarquer tout le runtime. Cette architecture redéfinie apporte des gains concrets mesurables. Avec Cline 2.0, l'équipe a reécrit les prompts, simplifié la boucle agentique et amélioré la gestion du contexte. Les résultats publiés sur Terminal Benchmark 2.0 (tbench.ai) au 8 mai 2026 sont frappants : sur claude-opus-4.7, le CLI Cline atteint 74,2% contre 69,4% pour Claude Code d'Anthropic sur le même modèle. Sur claude-opus-4.6, l'écart est similaire, 71,9% contre 65,4%. Sur les modèles open-weight, Cline marque 55,1% sur Kimi-K2.6, contre 37,1% pour OpenCode et 45,5% pour Pi-Code. Côté stabilité, les sessions agentiques longues ne meurent plus lors d'un redémarrage de l'interface : la boucle reste stateless et portable, tandis que la persistance est gérée séparément par le runtime. Cette sortie s'inscrit dans une tendance plus large : celle de la fragmentation et de la standardisation de l'outillage agentique. Pendant des années, les agents IA étaient construits comme des monolithes liés à une interface spécifique, VS Code, un navigateur, un SaaS. Le choix de Cline de découpler son moteur de ses surfaces d'affichage ouvre la voie à une nouvelle génération d'outils où le même agent peut s'exécuter dans un IDE, un terminal, un serveur serverless ou un environnement browser sans réécriture. Le système de plugins intégré au SDK permet en outre aux équipes tierces d'enregistrer leurs propres outils, d'observer les événements du cycle de vie de l'agent et d'étendre ses capacités. Pour les éditeurs et startups qui cherchent à construire sur une base agentique robuste sans repartir de zéro, @cline/sdk représente une fondation crédible, et son positionnement open-source face à des alternatives propriétaires comme Claude Code ou Cursor pourrait accélérer l'adoption dans les environnements d'entreprise.

UELe SDK intègre Mistral nativement comme fournisseur LLM, ce qui facilite l'adoption par les équipes européennes souhaitant une alternative open-source aux outils propriétaires soumis au CLOUD Act.

OutilsOutil
1 source
Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark
31NVIDIA AI Blog 

Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark

Hermes Agent, le nouveau framework d'agents IA développé par Nous Research, a franchi les 140 000 étoiles sur GitHub en moins de trois mois et s'est imposé la semaine dernière comme l'agent le plus utilisé au monde selon OpenRouter. Conçu pour fonctionner en local et en continu, il est optimisé pour tourner sur les GPU NVIDIA RTX, les stations de travail RTX PRO et les machines DGX Spark. Sa particularité principale est sa capacité d'auto-amélioration : à chaque tâche complexe ou retour utilisateur, Hermes enregistre ses apprentissages sous forme de compétences réutilisables, ce qui lui permet de s'améliorer au fil du temps sans intervention humaine. Il intègre également une architecture de sous-agents isolés, chacun dédié à une sous-tâche précise, ce qui réduit la confusion, minimise la taille des fenêtres de contexte nécessaires et rend le système plus fiable sur des modèles de 30 milliards de paramètres. Nous Research teste et valide chaque outil embarqué, ce qui distingue Hermes de la plupart des frameworks concurrents qui exigent un débogage constant. En parallèle, Alibaba a lancé la série Qwen 3.6, dont les modèles de 27 et 35 milliards de paramètres surpassent les versions précédentes de 120 et 400 milliards de paramètres, tout en nécessitant respectivement environ 20 Go de mémoire au lieu de 70 Go ou plus. L'enjeu est considérable : pour la première fois, des agents IA capables de s'auto-améliorer, de planifier des tâches multi-étapes et d'agir de façon autonome en continu deviennent accessibles sur du matériel grand public ou de gamme professionnelle. Un développeur ou une PME peut désormais faire tourner un agent équivalent à ce qui nécessitait autrefois un datacenter, grâce à des GPU comme le RTX 5090 ou une machine compacte comme le DGX Spark, qui offre 128 Go de mémoire unifiée et 1 pétaflop de performance IA. Les Tensor Cores NVIDIA réduisent le temps d'inférence de minutes à secondes, rendant les workflows autonomes viables à l'échelle d'une journée de travail complète. Cette convergence entre frameworks open source matures et modèles locaux ultra-compressés marque une rupture dans la démocratisation de l'IA agentique. Jusqu'ici, les agents performants dependaient de l'API d'OpenAI ou d'Anthropic, avec les coûts et les questions de confidentialité que cela implique. La montée en puissance de modèles open weight comme Qwen 3.6, combinée à des frameworks comme Hermes qui rivalisent avec les solutions propriétaires sur des benchmarks identiques, repositionne le matériel local comme infrastructure stratégique. NVIDIA profite directement de cette tendance en poussant le DGX Spark comme poste de travail dédié à l'IA agentique permanente, un segment encore embryonnaire mais en croissance rapide à mesure que les entreprises cherchent à internaliser leurs pipelines d'IA.

OutilsOutil
1 source
AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)
32MarkTechPost 

AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)

Une équipe de chercheurs chinois a publié AntAngelMed, un modèle de langage médical open-source présenté comme le plus grand et le plus performant de sa catégorie. Avec 103 milliards de paramètres au total, il repose sur une architecture Mixture-of-Experts (MoE) avec un ratio d'activation de 1/32 : seuls 6,1 milliards de paramètres sont effectivement mobilisés lors du traitement d'une requête. Construit à partir de Ling-flash-2.0, un modèle de base développé par inclusionAI, AntAngelMed intègre plusieurs optimisations techniques, notamment un routage sigmoïde sans perte auxiliaire, une couche de prédiction multi-token (MTP) et un positionnement rotatif partiel (Partial-RoPE). Son entraînement se déroule en trois phases : une pré-entraînement continu sur de vastes corpus médicaux (encyclopédies, publications académiques, textes web), un affinage supervisé sur un jeu de données mêlant raisonnement général et scénarios cliniques (dialogues médecin-patient, diagnostics, cas éthiques), puis un renforcement par apprentissage via l'algorithme GRPO (Group Relative Policy Optimization), issu des travaux de DeepSeekMath. Sur GPU H20, le modèle dépasse 200 tokens par seconde, avec un contexte supporté de 128 000 tokens grâce à l'extrapolation YaRN. La performance revendiquée est frappante : avec seulement 6,1 milliards de paramètres activés, AntAngelMed rivalise selon ses créateurs avec des modèles denses d'environ 40 milliards de paramètres, soit un facteur d'efficacité de 7x. Sa vitesse d'inférence est environ 3 fois supérieure à celle d'un modèle dense de 36 milliards de paramètres. Une version quantifiée en FP8 combinée au décodage spéculatif EAGLE3 améliore encore le débit à concurrence de 32 requêtes simultanées : +71% sur le benchmark HumanEval et +45% sur GSM8K. Ces gains sont particulièrement significatifs pour des déploiements médicaux, où la rapidité de réponse et la fiabilité des informations ont un impact direct sur les décisions cliniques, et où le coût de calcul conditionne l'accessibilité des outils dans les systèmes de santé sous-dotés. Le développement d'AntAngelMed s'inscrit dans une dynamique plus large de démocratisation des IA médicales spécialisées. Jusqu'ici, les modèles de santé performants tendaient à être propriétaires ou trop gourmands en ressources pour un déploiement hospitalier étendu. L'architecture MoE, popularisée notamment par Mistral et DeepSeek, permet de contourner cette contrainte en dissociant capacité totale et coût d'inférence. La publication en open-source sur ModelScope ouvre la voie à des adaptations locales dans des contextes aux infrastructures limitées. Le recours au GRPO pour aligner le modèle sur des critères d'empathie, de sécurité et de raisonnement fondé sur les preuves reflète la maturité croissante des approches d'alignement dans le domaine médical, secteur où les hallucinations peuvent avoir des conséquences concrètes et graves.

UELes établissements de santé européens, notamment ceux aux infrastructures limitées, pourraient déployer ce modèle open-source pour des applications cliniques, sous réserve de conformité avec l'AI Act qui classe l'IA médicale en catégorie à haut risque.

LLMsOpinion
1 source
Dans l’IA, la Chine bouscule son monde avec sa stratégie open source
33Next INpact 

Dans l’IA, la Chine bouscule son monde avec sa stratégie open source

Depuis fin avril 2026, deux modèles chinois occupent le sommet du classement des LLM les plus utilisés sur Open Router, la principale place de marché mondiale pour les modèles de langage : Hy3 de Tencent, fort de 295 milliards de paramètres, et Kimi K2.6 de la start-up pékinoise Moonshot AI, fondée en 2023. Claude Sonnet 4.6 et Claude Opus 4.7 d'Anthropic n'arrivent qu'en troisième et quatrième position, suivis de plusieurs versions de DeepSeek et de Gemini. Ce palmarès n'est pas un accident : la Chine a déposé 70 % des 54 000 brevets mondiaux en IA générative, et Alibaba revendiquait en mars un milliard de téléchargements cumulés pour sa famille Qwen, représentant plus de la moitié des téléchargements mondiaux de modèles open source. Kimi, lui, est accessible à environ 4 dollars le million de tokens générés, soit six à huit fois moins cher que GPT-5.5 ou Claude Opus 4.7. Cet avantage tarifaire peut sembler négligeable pour un utilisateur individuel, mais il change radicalement l'équation pour les entreprises qui font tourner des centaines d'agents d'IA en parallèle. En rendant publics des modèles performants à faible coût, les acteurs chinois attaquent la chaîne de valeur que les géants américains ont bâtie autour de leurs APIs propriétaires. Le gouvernement de Singapour a illustré cette dynamique en novembre dernier en abandonnant Llama de Meta au profit de Qwen pour construire son modèle d'IA souverain, tandis que Taobao et Tmall intègrent déjà ces outils dans leurs services quotidiens. Pour les directions informatiques du monde entier, l'open source chinois est désormais une alternative sérieuse, pas un choix par défaut. Cette offensive s'inscrit dans un contexte de restrictions américaines sur l'accès aux semi-conducteurs avancés, qui ont contraint la Chine à optimiser ses modèles pour des architectures matérielles moins récentes. Résultat : des systèmes plus légers, moins gourmands, et moins coûteux à l'usage. La déflagration DeepSeek, dès début 2025, avait été le premier signal fort de cette capacité d'adaptation, au point d'inquiéter Jensen Huang, le patron de Nvidia. La quatrième version de DeepSeek, conçue pour fonctionner exclusivement sur des technologies chinoises avec le soutien de Huawei, a confirmé la tendance. En mars, Anthropic a formellement dénoncé l'utilisation de comptes frauduleux par DeepSeek, Moonshot et MiniMax pour extraire massivement les capacités de Claude. Loin de la seule rivalité technologique, cette stratégie open source représente une évolution des Nouvelles Routes de la Soie vers un levier d'influence numérique mondial, où la dépendance aux modèles chinois pourrait progressivement supplanter celle aux infrastructures occidentales.

UELa domination chinoise sur l'open source IA place l'Europe face à un arbitrage stratégique entre adoption de modèles performants et bon marché et risque de substitution d'une dépendance américaine par une dépendance chinoise, en tension directe avec les objectifs de souveraineté numérique de l'UE.

💬 Quatre dollars le million de tokens contre vingt-cinq pour Claude Opus, c'est là que le débat se joue maintenant. Quand tu fais tourner des centaines d'agents en parallèle, la facture n'est plus la même, et les DSI ont sorti leurs calculettes. Ce que personne n'avait vraiment anticipé: les restrictions américaines sur les puces ont finalement produit des modèles plus légers, moins gourmands, et difficiles à contrer sur le prix.

LLMsOpinion
1 source
ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300
34VentureBeat AI 

ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300

La startup californienne Zyphra, basée à Palo Alto, a publié cette semaine ZAYA1-8B, un modèle de langage de raisonnement à architecture mixture-of-experts (MoE) comptant un peu plus de 8 milliards de paramètres, dont seulement 760 millions sont actifs simultanément. Disponible gratuitement sur Hugging Face sous licence Apache 2.0, le modèle peut être téléchargé, modifié et déployé immédiatement par les entreprises comme par les développeurs indépendants. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives face à GPT-5-High d'OpenAI et DeepSeek-V3.2 sur plusieurs benchmarks tiers. Mais ce qui attire surtout l'attention, c'est la plateforme matérielle utilisée pour l'entraîner : des GPU AMD Instinct MI300, les puces concurrentes de Nvidia lancées il y a près de trois ans, sur lesquelles Zyphra a fait tourner l'intégralité de son pipeline d'entraînement. Ce modèle illustre une tendance de fond dans le secteur : pendant qu'OpenAI et Anthropic s'affrontent sur des modèles toujours plus massifs, une nouvelle génération de laboratoires mise sur la densité d'intelligence plutôt que sur la taille brute. Avec 760 millions de paramètres actifs seulement, ZAYA1-8B peut tourner sur du matériel bien moins coûteux, ouvrant la porte à des déploiements locaux ou embarqués inaccessibles aux géants du secteur. Sur le plan matériel, la réussite de l'entraînement sur AMD MI300 est un signal fort : elle démontre concrètement qu'il existe une alternative viable aux GPU Nvidia, qui dominent jusqu'ici quasi exclusivement l'écosystème d'entraînement de modèles IA. L'architecture MoE++ propriétaire de Zyphra repose sur trois innovations techniques. La première, l'attention convolutive compressée (CCA), réduit de huit fois la taille du cache KV par rapport à l'attention multi-têtes classique, ce qui améliore l'efficacité sur les contextes longs. La deuxième remplace le routeur linéaire standard des modèles MoE par un réseau de neurones multi-couches plus expressif, stabilisé par un mécanisme de rééquilibrage inspiré des contrôleurs PID de l'automatique industrielle. La troisième, le Learned Residual Scaling, contrôle la croissance des normes résiduelles sur les 40 couches du modèle pour éviter les problèmes de gradient. En amont de l'entraînement, Zyphra a intégré le raisonnement dès la phase de préentraînement, en développant une technique baptisée AP Trimming qui compresse les longues chaînes de pensée en supprimant leur partie médiane tout en préservant le problème et la solution finale. À l'inférence, la méthode Markovian RSA permet d'améliorer la qualité des réponses sans simplement allonger la chaîne de raisonnement, une approche qui constitue selon Zyphra la principale source de gain de performance du modèle.

UELe modèle étant publié sous Apache 2.0 sur Hugging Face, les développeurs et entreprises européens peuvent le télécharger et le déployer immédiatement pour des cas d'usage locaux à faible coût matériel.

LLMsOpinion
1 source
Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille
35MarkTechPost 

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille

Zyphra AI a publié ZAYA1-8B, un petit modèle de langage de type Mixture of Experts (MoE) comptant 760 millions de paramètres actifs pour 8,4 milliards de paramètres au total. Entraîné intégralement sur des processeurs AMD, un cluster de 1 024 cartes AMD Instinct MI300x interconnectées via AMD Pensando Pollara, construit en partenariat avec IBM, le modèle est désormais disponible sous licence Apache 2.0 sur Hugging Face et en endpoint serverless sur Zyphra Cloud. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives avec des modèles bien plus grands sur les benchmarks de mathématiques et de code : il surpasse Claude 4.5 Sonnet et GPT-5-High sur le HMMT'25, une compétition de mathématiques avancées (89,6 points contre 88,3), et se rapproche des meilleurs modèles open-weight comme DeepSeek-V3.2. Cette efficacité repose sur une méthode inédite de calcul à l'inférence baptisée Markovian RSA, ainsi que sur une architecture MoE++ combinant trois innovations techniques : une attention convolutive compressée réduisant le KV-cache d'un facteur 8, un routeur basé sur un réseau de neurones MLP avec équilibrage de charge par contrôleur PID, et un mécanisme de mise à l'échelle résiduelle apprise pour stabiliser l'entraînement en profondeur. La distinction entre paramètres actifs et paramètres totaux est au coeur de l'intérêt du modèle. Dans un modèle classique, tous les paramètres s'activent à chaque token traité ; dans un MoE, seule une fraction des experts est sollicitée à chaque inférence. Avec seulement 760 millions de paramètres actifs par passe, ZAYA1-8B peut tourner en local sur des appareils grand public, s'intégrer dans des pipelines à calcul augmenté et servir des requêtes avec une latence réduite, tout en maintenant des performances proches de modèles dix fois plus grands. Pour les développeurs et entreprises qui cherchent à déployer des capacités de raisonnement avancées sans infrastructure lourde, ce rapport coût-performance représente une avancée concrète. ZAYA1-8B s'inscrit dans une tendance de fond qui voit plusieurs laboratoires challenger, DeepSeek en tête depuis début 2025, démontrer que l'architecture et la méthode d'entraînement comptent autant que la taille brute des modèles. Zyphra, encore peu connu du grand public, affirme avoir bâti un pipeline d'entraînement en cinq étapes post-préentraînement, intégrant notamment un échauffement au raisonnement, du reinforcement learning en cascade, et des étapes spécifiques de calcul augmenté à l'inférence. L'entraînement entièrement réalisé sur AMD est également un signal politique : dans un secteur dominé par Nvidia, valider une chaîne de production complète sur hardware concurrent ouvre la voie à une diversification des infrastructures IA. Les prochains modèles de Zyphra, selon ses propres communications, viseront des tailles supérieures avec la même philosophie d'efficacité par paramètre.

LLMsOpinion
1 source
Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité
36Ars Technica AI 

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité

Google a lancé ce printemps sa nouvelle gamme de modèles d'IA ouverts, Gemma 4, conçus pour fonctionner en local sur le matériel des utilisateurs. Quelques semaines seulement après ce lancement, l'entreprise publie des modèles auxiliaires appelés "MTP drafters" (drafters à prédiction multi-token), exploitant une technique connue sous le nom de décodage spéculatif. Le principe : ces modèles légers anticipent les prochains tokens avant que le modèle principal ne les génère, ce qui peut accélérer la vitesse de génération jusqu'à trois fois par rapport à une inférence classique. Gemma 4 repose sur la même architecture de base que Gemini, le modèle frontier de Google, mais est optimisé pour tourner sur une seule machine, y compris sur un GPU grand public avec quantification. L'enjeu est considérable pour quiconque veut utiliser des modèles puissants sans dépendre d'un service cloud. En local, les contraintes matérielles sont sévères : bande passante mémoire limitée, absence de clusters de TPUs comme ceux dont dispose Google en interne. Le décodage spéculatif contourne en partie ces goulots d'étranglement en parallélisant une partie du travail d'inférence. Pour les développeurs et chercheurs qui font tourner des modèles sur leur propre infrastructure, un gain de 3x sur la vitesse de génération représente une différence très concrète en termes de productivité et de coût opérationnel. Google a également profité du lancement de Gemma 4 pour changer de licence : exit la licence Gemma propriétaire des versions précédentes, place à l'Apache 2.0, bien plus permissive et appréciée de l'écosystème open source. Ce choix positionne Gemma 4 comme un concurrent direct de Llama de Meta ou des modèles Mistral, dans une course où la liberté d'usage est devenue un argument de poids. Les MTP drafters sont encore présentés comme expérimentaux, mais ils signalent clairement la direction que prend Google : rendre ses modèles ouverts non seulement plus capables, mais aussi plus rapides à exploiter sur du matériel ordinaire.

UELe passage à la licence Apache 2.0 et le gain de vitesse x3 via le décodage spéculatif rendent Gemma 4 directement exploitable par les développeurs et laboratoires européens souhaitant déployer des modèles puissants en local, sans dépendance cloud.

💬 Le décodage spéculatif, ça fait des années qu'on en parle en labo, mais là Google le rend pratique sur un GPU grand public. Le vrai truc de cette annonce, c'est quand même le passage à Apache 2.0, les anciennes licences Gemma c'était de l'open source du dimanche. Reste à voir si le x3 tient en prod réelle, parce que les benchmarks Google ont une tendance connue à se dégonfler un peu.

LLMsActu
1 source
Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini
37VentureBeat AI 

Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini

Hugging Face, la startup new-yorkaise fondée il y a dix ans et devenue la référence mondiale pour l'hébergement de modèles d'IA open source, a lancé un App Store dédié à son robot de bureau Reachy Mini. Cette boutique d'applications compte déjà plus de 200 créations communautaires, toutes téléchargeables gratuitement par les propriétaires du robot. Le Reachy Mini, commercialisé à 299 dollars depuis juillet 2025 après le rachat de la startup Pollen Robotics par Hugging Face, s'est vendu à environ 10 000 unités en moins d'un an. Petit robot de bureau fixe, il est équipé d'une caméra, d'un haut-parleur et d'un microphone, et peut désormais être programmé sans aucune compétence en ingénierie grâce à l'agent IA maison baptisé "ML Intern". Il suffit de décrire un comportement en langage naturel, comme "faire un signe de la main quand quelqu'un dit bonjour", et l'agent génère, teste et déploie le code correspondant en quelques minutes. L'enjeu dépasse largement la nouveauté gadget : Hugging Face veut faire pour la robotique ce qu'Apple a fait pour le smartphone, c'est-à-dire rendre la création d'applications accessibles à des millions de personnes sans formation technique. Jusqu'ici, développer une application robotique nécessitait de maîtriser des SDK propriétaires, la gestion du firmware et des abstractions matérielles complexes. En éliminant cette barrière, la plateforme permet à des non-ingénieurs de livrer des logiciels robotiques fonctionnels en moins d'une heure. Le PDG Clément Delangue voit également dans ce store un terrain d'expérimentation pour les créateurs de modèles d'IA, qui pourront tester les capacités physiques de leurs nouvelles architectures directement sur un robot réel. La difficulté historique de la robotique tient au manque de données d'entraînement spécifiques : là où les grands modèles de langage ont pu s'appuyer sur des centaines de milliards de lignes de code généraliste via GitHub, les dépôts robotiques restent marginaux, avec seulement 17 000 repositories publics recensés. Hugging Face contourne ce problème en proposant une couche d'abstraction agnostique, compatible avec GPT-5.5, Claude Opus 4.6, Gemini Live, OpenAI Realtime et plusieurs autres modèles. Cette ouverture multiple crée un écosystème qui ne dépend d'aucun acteur unique. La prochaine étape sera probablement l'introduction d'options de monétisation pour les développeurs d'applications, absentes au lancement. Si la dynamique se confirme, Hugging Face pourrait transformer le Reachy Mini en plateforme de référence pour la robotique grand public, à l'heure où Boston Dynamics, Figure et d'autres misent sur des machines bien plus coûteuses et fermées.

UEHugging Face est fondée par des Français et Pollen Robotics (fabricant du Reachy Mini) est une startup française de Bordeaux, ce lancement positionne l'écosystème français en tête de la robotique grand public open source mondiale.

💬 300 dollars, 200 apps communautaires, un agent qui génère le code depuis une phrase, bon, sur le papier c'est exactement ce qu'il fallait pour que la robotique grand public décolle enfin. La comparaison avec l'App Store d'Apple est surjouée, mais les briques techniques sont là cette fois, et Pollen Robotics de Bordeaux dans la boucle c'est un beau signal pour l'écosystème français. Reste à voir si les usages dépassent le gadget de bureau dans six mois.

RobotiqueOpinion
1 source
Une commande transforme tout dépôt open source en porte dérobée pour agents IA, indétectable par les scanners (OpenClaw)
38VentureBeat AI 

Une commande transforme tout dépôt open source en porte dérobée pour agents IA, indétectable par les scanners (OpenClaw)

Une équipe de chercheurs de l'Université de Hong Kong a publié en mars 2026 un outil baptisé CLI-Anything, capable d'analyser le code source de n'importe quel dépôt open source et de générer automatiquement une interface en ligne de commande (CLI) exploitable par un agent IA en une seule instruction. Compatible avec Claude Code, Codex, Cursor, GitHub Copilot CLI et d'autres, l'outil a dépassé les 30 000 étoiles sur GitHub en deux mois. Mais c'est ce que CLI-Anything génère qui inquiète les chercheurs en sécurité : des fichiers SKILL.md, des définitions d'instructions en langage naturel que les agents IA utilisent pour comprendre comment opérer un logiciel. Or en février 2026, les travaux ToxicSkills de Snyk avaient déjà recensé 76 charges malveillantes confirmées dans des fichiers de ce type sur ClawHub et skills.sh. La communauté offensive discute désormais ouvertement des implications sur X et dans les forums de sécurité. Le problème central est qu'aucun scanner de sécurité existant n'est équipé pour détecter des instructions malveillantes glissées dans des définitions de compétences pour agents IA. Les outils SAST analysent la syntaxe du code source ; les outils SCA vérifient les versions des dépendances. Ni l'un ni l'autre ne comprend la couche sémantique où opèrent les descriptions d'outils MCP, les prompts d'agents et les fichiers de règles. Cisco l'a confirmé en avril dans un billet annonçant son AI Agent Security Scanner, précisant que ces outils traditionnels "n'ont pas été conçus pour cela". Merritt Baer, directrice de la sécurité chez Enkrypt AI et ancienne Deputy CISO chez AWS, résume : "SAST et SCA ont été construits pour le code et les dépendances. Ils n'inspectent pas les instructions." Une définition de compétence empoisonnée ne déclenche aucune CVE et n'apparaît jamais dans un SBOM. Cette faille structurelle s'inscrit dans une évolution plus large des chaînes d'approvisionnement logicielles. Les outils de type agent bridge, MCP connectors ou fichiers de règles Cursor constituent une troisième couche entre le code et les dépendances : des fichiers de configuration en langage naturel qui, sans ressembler à du code, s'exécutent comme du code. Des chercheurs de quatre universités (Griffith, Nanyang, UNSW et Tokyo) ont documenté en avril la technique DDIPE (Document-Driven Implicit Payload Execution), qui intègre une logique malveillante dans des exemples de documentation de compétences. Sur quatre frameworks d'agents et cinq grands modèles de langage, le taux de contournement a atteint entre 11,6 % et 33,5 %, et 2,5 % des échantillons ont échappé aux quatre couches de détection testées. L'industrie se trouve donc dans une fenêtre de pré-exploitation : l'attaque est théorisée, l'outil est déployé, et les défenses n'ont pas encore de catégorie pour nommer ce qu'elles cherchent.

UELes entreprises et institutions européennes utilisant des agents IA basés sur des fichiers de règles ou connecteurs MCP sont exposées à cette faille structurelle dans leurs chaînes d'approvisionnement logicielles, sans outil de détection disponible à ce jour.

💬 Le vrai problème, c'est qu'on a ajouté une couche entière dans la chaîne logicielle, des fichiers en langage naturel qui s'exécutent comme du code, sans que personne ait d'outil pour la surveiller. SAST et SCA ont été conçus pour la syntaxe et les dépendances, pas pour la couche sémantique où tournent tes agents. Ce qui m'inquiète le plus : l'attaque est théorisée, l'outil est déployé, et les défenses n'ont même pas encore de catégorie pour nommer ce qu'elles cherchent.

SécuritéOpinion
1 source
Voxtral de Mistral comble le fossé d'expressivité dans le clonage vocal multilingue grâce à une architecture hybride
39MarkTechPost 

Voxtral de Mistral comble le fossé d'expressivité dans le clonage vocal multilingue grâce à une architecture hybride

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale, disponible simultanément en open source sur Hugging Face et via une API commerciale. Le modèle totalise environ 4 milliards de paramètres répartis entre trois composants distincts : un décodeur autorégressif de 3,4 milliards de paramètres initialisé à partir de Ministral 3B, un transformeur acoustique à flow-matching de 390 millions de paramètres, et un codec audio neuronal de 300 millions de paramètres. À partir d'à peine 3 secondes d'audio de référence, Voxtral TTS génère de la parole naturelle dans 9 langues avec une latence inférieure à 600 millisecondes, tout en servant plus de 30 utilisateurs simultanés depuis un seul GPU NVIDIA H200. Dans des évaluations menées par des annotateurs natifs sur le clonage vocal multilingue, le modèle affiche un taux de victoire de 68,4 % face à ElevenLabs Flash v2.5, l'une des références du secteur. Ce lancement s'attaque à ce que Mistral appelle l'"Expressivity Gap" : le gouffre entre une synthèse vocale intelligible et une parole qui sonne réellement comme un être humain dans le temps, avec les bonnes émotions et le bon rythme. Pour les développeurs qui construisent des agents vocaux, des pipelines de livres audio ou des systèmes de support client multilingues, cette limite a toujours été le point de rupture où les systèmes actuels s'effondrent sous l'examen humain. Voxtral TTS change la donne en séparant clairement deux problèmes distincts : maintenir la cohérence à long terme de l'identité vocale d'un locuteur, et générer la texture acoustique fine qui donne au son sa richesse. Cette séparation architecturale permet d'éviter le compromis habituel qui dégrade les systèmes monolithiques. L'approche hybride retenue est précisément l'innovation centrale du modèle. Les architectures autorégréssives excellent à préserver la cohérence d'un locuteur sur plusieurs phrases mais s'avèrent lentes pour traiter les 36 tokens acoustiques par trame qui définissent la texture sonore. Les modèles basés sur le flow-matching, eux, génèrent une variation acoustique riche et continue mais manquent de mémoire séquentielle pour maintenir une voix cohérente dans le temps. Voxtral TTS combine les deux : le décodeur autorégressif gère le token sémantique de chaque trame (qui encode le contenu linguistique via distillation depuis Whisper), et le transformeur flow-matching prend ensuite en charge la génération des 36 tokens acoustiques restants. Cette architecture en pipeline positionne Mistral dans un marché en pleine consolidation, aux côtés d'ElevenLabs, PlayHT et Cartesia, avec l'avantage stratégique d'un modèle open weights que les entreprises peuvent déployer sur leur propre infrastructure.

UEMistral AI, entreprise française, lance son premier modèle TTS open weights, renforçant la position européenne dans la synthèse vocale multilingue face aux acteurs américains dominants.

💬 Mistral sort son premier TTS, open weights, et il bat ElevenLabs sur le clonage vocal multilingue. L'architecture hybride (autorégressif pour la cohérence du locuteur, flow-matching pour la texture acoustique) c'est la bonne réponse au vrai problème, pas juste une amélioration marginale sur un truc qui marchait déjà. Pour les boîtes qui veulent du vocal sans dépendre d'une API américaine, ça arrive au bon moment.

CréationOpinion
1 source
MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel
40arXiv cs.RO 

MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel

L'Allen Institute for Artificial Intelligence (AllenAI) a publié MolmoAct2 en mai 2025, un modèle VLA (Vision-Language-Action) entièrement open source conçu pour le déploiement robotique en conditions réelles. Cinq contributions structurent le système : MolmoER, un backbone visio-linguistique entraîné sur 3,3 millions d'exemples spécialisés en raisonnement spatial et incarné ; MolmoAct2-BimanualYAM, 720 heures de trajectoires de manipulation bimanuelle téléopérées sur plateformes à coût modéré (SO100/101 et sous-ensembles Franka DROID), le plus grand corpus bimanuel ouvert à ce jour ; OpenFAST, un tokeniseur d'actions open weight couvrant cinq types d'embodiments ; une architecture hybride couplant un expert à actions continues par flow-matching à un VLM à tokens discrets via conditionnement KV-cache couche par couche ; et MolmoThink, qui ne recalcule les tokens de profondeur géométrique que pour les zones de scène modifiées entre deux pas de temps, réduisant la latence d'inférence. Sur sept benchmarks mêlant simulation et environnements réels, MolmoAct2 surpasse Pi-0.5 de Physical Intelligence ; MolmoER dépasse GPT-5 et Gemini Robotics ER-1.5 d'Alphabet sur treize benchmarks de raisonnement incarné. Poids, code et données d'entraînement sont publiés intégralement. La publication s'attaque à quatre verrous concrets du déploiement des VLA : modèles frontier fermés, dépendance à du matériel onéreux, latence prohibitive des politiques augmentées par raisonnement, et taux de succès trop bas pour un usage fiable en production. La mise à disposition simultanée des poids, du code d'entraînement et des données complètes reste rare dans un domaine largement dominé par le propriétaire. Ces 720 heures de données sur plateformes abordables élargissent l'accès à un corpus bimanuel jusqu'ici réservé à des setups coûteux. MolmoThink représente une approche concrète pour rendre le raisonnement géométrique compatible avec les contraintes temps-réel des contrôleurs embarqués. Il faut cependant souligner que ces performances sont mesurées sur benchmarks académiques : aucun déploiement industriel validé n'est annoncé dans cet article. AllenAI, institut non lucratif cofondé par Paul Allen à Seattle, avait publié le modèle Molmo fin 2024 avant d'étendre ses travaux au contrôle robotique avec MolmoAct. MolmoAct2 s'inscrit dans un paysage VLA dominé par des acteurs fermés : Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-2) et des équipes d'OpenAI dont les développements robotiques restent non publiés. Dans l'espace open source, il concurrence OpenVLA et Octo, avec l'avantage d'un corpus bimanuel inédit et d'un tokeniseur multi-embodiments standardisé. Aucun pilote commercial n'est annoncé ; la publication cible en priorité les équipes universitaires et les startups robotiques cherchant à s'affranchir de la dépendance aux modèles propriétaires.

UELa publication intégrale des poids, du code et des données réduit la dépendance des équipes universitaires et startups européennes aux modèles VLA propriétaires, offrant un accès immédiat au plus grand corpus bimanuel ouvert à ce jour.

💬 AllenAI publie les poids, le code et les données d'entraînement, et ça reste rarissime dans un domaine où les gros jouent à guichet fermé. 720 heures de manipulation bimanuelle sur du matériel accessible, un tokeniseur multi-embodiments open weight, et des scores au-dessus de Pi-0.5 et GPT-5 sur les benchmarks incarnés : les startups robotiques qui n'ont pas le budget Physical Intelligence vont s'en saisir. Bon, aucun déploiement industriel validé pour l'instant.

RobotiqueOpinion
1 source
Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures
41The Decoder 

Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures

Xiaomi a publié MiMo-V2.5-Pro, un modèle open-weight orienté vers le codage autonome qui rivalise avec Claude Opus 4.6 d'Anthropic sur les principaux benchmarks de programmation. Selon le fabricant chinois, le modèle consomme entre 40 et 60 % de tokens en moins que son concurrent d'Anthropic pour des performances comparables, ce qui représente une économie substantielle à l'échelle. Le modèle est conçu pour fonctionner de façon autonome sur des tâches longues, pouvant s'étendre sur plusieurs heures sans intervention humaine. Cet écart d'efficacité change la donne pour les entreprises qui souhaitent intégrer des agents de codage dans leurs flux de travail. Moins de tokens signifient des coûts d'inférence réduits et des sessions plus longues sans interruption, deux contraintes qui freinent encore l'adoption des agents autonomes en production. Pour les équipes d'ingénierie, c'est un argument concret : un modèle open-weight aussi capable mais nettement moins gourmand rend l'automatisation du code accessible à davantage d'organisations. MiMo-V2.5-Pro s'inscrit dans une dynamique plus large qui oppose les fournisseurs chinois de modèles open-weight aux acteurs américains. Deepseek avait ouvert la voie en début d'année en démontrant qu'un entraînement efficace pouvait produire des résultats proches de ceux d'OpenAI à une fraction du coût. Xiaomi poursuit cette logique en déplaçant le terrain de compétition : il ne s'agit plus seulement de scores sur les benchmarks, mais de savoir quel modèle peut exécuter le plus longtemps et le plus économiquement une tâche complexe en conditions réelles.

UELes équipes d'ingénierie européennes peuvent adopter ce modèle open-weight pour réduire leurs coûts d'inférence de 40 à 60 % sur les agents de codage autonomes, sans dépendre d'un fournisseur américain.

LLMsOpinion
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
42MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
Galbot lance LDA-1B, un modèle du monde-action en open source
43Pandaily 

Galbot lance LDA-1B, un modèle du monde-action en open source

Galbot a publié LDA-1B, un modèle fondation monde-action cross-embodiment de 1,6 milliard de paramètres, construit sur son architecture propriétaire WAM (World-Action Model). Ce modèle unifie modèles de monde et modèles d'action au niveau des données, permettant un apprentissage conjoint sur données de simulation et données réelles, données humaines et robotiques, ainsi que sur jeux de données d'action labellisés et non labellisés. LDA-1B peut s'adapter à différentes morphologies de robots après seulement une heure de post-entraînement, selon Galbot. À mesure que le volume de données d'entraînement est passé de 5 000 à 30 000 heures, l'erreur de prédiction d'action a diminué de façon continue, démontrant un comportement de scaling cohérent. La recherche a été acceptée à RSS 2026 et le code source est désormais public. Le modèle est intégré dans AstraBrain et AstraData, l'infrastructure de déploiement de Galbot, couvrant la logistique industrielle, les tâches domestiques et les scénarios retail. En avril 2026, la société est l'entreprise d'IA incarnée non cotée la mieux valorisée en Chine, avec une valorisation dépassant 20 milliards de yuans (2,8 milliards de dollars). Plusieurs points méritent attention. La capacité d'adaptation cross-embodiment en une heure de fine-tuning est une affirmation forte, mais elle reste à valider hors démonstrations contrôlées. Le comportement de scaling confirmé entre 5 000 et 30 000 heures de données est un signal positif pour les VLA (Vision-Language-Action models) à grande échelle, suggérant que les lois d'échelle s'appliquent à l'action robotique de façon analogue aux LLM textuels. L'open-source du codebase réduit la barrière d'entrée pour les intégrateurs souhaitant expérimenter sans infrastructure propriétaire, et positionne Galbot comme fournisseur d'infrastructure fondationale, pas seulement constructeur de robots. Galbot est une startup spécialisée dans les robots humanoïdes et l'IA incarnée. LDA-1B entre en compétition directe avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches internes de Figure AI et Agility Robotics côté américain. En Chine, la société rivalise avec Unitree et UBTECH sur le terrain humanoïde. L'acceptation à RSS 2026 lui confère une légitimité académique rare dans ce secteur encore dominé par les communiqués marketing. Les prochaines étapes probables incluent des pilotes industriels en logistique et retail, et une expansion internationale que la valorisation de 2,8 milliards de dollars rend plausible.

UEPression concurrentielle indirecte sur les équipes VLA européennes (INRIA, CEA-List), mais aucun déploiement ni partenariat européen annoncé.

💬 Le comportement de scaling sur les données robotiques, c'est le vrai signal ici, pas le chiffre de valorisation. Que les lois d'échelle s'appliquent à l'action physique comme au texte, ça dit quelque chose sur ce qu'on va voir dans 3 ans, et tu commences à comprendre pourquoi les gros acteurs américains s'agitent. L'open source est une bonne décision stratégique, mais une heure de fine-tuning pour changer de morphologie de robot, j'attends de voir ça hors démo contrôlée.

RobotiqueOpinion
1 source
Poolside AI présente Laguna XS.2 et M.1, des modèles de codage à base d'agents atteignant 68,2 % et 72,5 % sur SWE-bench Verified
44MarkTechPost 

Poolside AI présente Laguna XS.2 et M.1, des modèles de codage à base d'agents atteignant 68,2 % et 72,5 % sur SWE-bench Verified

Poolside AI a dévoilé mardi les deux premiers modèles de sa famille Laguna : Laguna M.1 et Laguna XS.2, accompagnés d'un agent de codage en ligne de commande baptisé "pool". Laguna M.1 est un modèle de type Mixture-of-Experts (MoE) totalisant 225 milliards de paramètres, dont seulement 23 milliards activés à chaque inférence, entraîné sur 30 000 milliards de tokens à l'aide de 6 144 GPU NVIDIA Hopper interconnectés. Il atteint 72,5 % sur le benchmark SWE-bench Verified, référence du secteur pour évaluer la résolution autonome de bugs réels. Laguna XS.2, le premier modèle en accès ouvert de Poolside, est beaucoup plus compact : 33 milliards de paramètres au total, seulement 3 milliards activés par token. Il score 68,2 % sur SWE-bench Verified et peut tourner en local sur un Mac équipé de 36 Go de RAM via Ollama, ce qui est rare pour ce niveau de performance. Une version de base pour le fine-tuning, XS.2-base, sera publiée prochainement. Ces résultats positionnent Poolside parmi les acteurs sérieux du codage agentique, un segment en pleine effervescence où l'objectif est de faire résoudre des tâches de développement complexes et longues par des modèles de manière autonome. La capacité de XS.2 à fonctionner en local change la donne pour les développeurs soucieux de confidentialité ou travaillant sans accès cloud stable : avec une fenêtre de contexte de 131 072 tokens et un support natif du raisonnement intercalé entre les appels d'outils, le modèle est conçu pour des workflows réels de programmation sur plusieurs heures. Le fait que Laguna XS.2 soit open-weight le rend aussi accessible aux équipes qui souhaitent l'adapter à leurs propres bases de code, sans dépendre d'une API propriétaire. Poolside AI, fondée en 2023 par des vétérans de DeepMind et du monde de la recherche, a levé plus de 500 millions de dollars avec la conviction que l'IA spécialisée dans le code nécessite une infrastructure d'entraînement entièrement repensée. Pour Laguna, l'entreprise a développé en interne son pipeline de données, son framework d'entraînement (Titan) et une infrastructure de reinforcement learning agentique. L'une des innovations les plus notables est "AutoMixer", un système qui entraîne simultanément environ 60 modèles-proxy sur des mélanges de données différents pour optimiser automatiquement la composition du jeu d'entraînement, plutôt que de s'appuyer sur des heuristiques manuelles. Cette approche, inspirée de travaux comme RegMix ou OLMix, aurait permis de doubler la diversité effective des données tout en préservant l'équilibre entre code, mathématiques et raisonnement général. La prochaine étape pour Poolside sera probablement d'élargir la famille Laguna et d'affiner son agent "pool" pour concurrencer directement des outils comme Claude Code ou Cursor sur le marché des assistants de développement autonomes.

UELaguna XS.2 étant open-weight et exécutable en local via Ollama, les équipes européennes soucieuses de souveraineté des données peuvent l'adopter sans dépendre d'une API cloud américaine.

💬 68,2 % sur SWE-bench avec un modèle qui tourne sur Mac, c'est pas rien. Ce qui change vraiment la donne, c'est le côté open-weight : on peut l'adapter à sa propre base de code, sans dépendre d'une API tierce, et ça c'est rare pour ce niveau de performance. Reste à voir si l'agent "pool" suit.

LLMsActu
1 source
OpenAI lance Privacy Filter, un modèle open source d'anonymisation des données personnelles
45MarkTechPost 

OpenAI lance Privacy Filter, un modèle open source d'anonymisation des données personnelles

OpenAI a discrètement publié sur Hugging Face un modèle open source baptisé Privacy Filter, sous licence Apache 2.0, conçu spécifiquement pour détecter et supprimer automatiquement les données personnelles (PII) dans des textes. Le modèle est suffisamment léger pour tourner directement dans un navigateur web ou sur un ordinateur portable, tout en étant assez rapide pour des pipelines de traitement à haut débit. Il reconnaît huit catégories de données sensibles : numéros de compte, adresses privées, e-mails, noms de personnes, numéros de téléphone, URLs, dates privées et secrets. Cette dernière catégorie couvre les tokens d'authentification, les mots de passe et les chaînes à haute entropie. OpenAI reconnaît dans la fiche du modèle deux limites connues : la détection manquée de formats de credentials inédits et de secrets fragmentés sur plusieurs tokens. Ce qui rend Privacy Filter techniquement remarquable, c'est l'écart entre ses 1,5 milliard de paramètres totaux et ses seulement 50 millions de paramètres actifs à l'inférence, soit un rapport de 1 à 30. Cet écart s'explique par une architecture sparse mixture-of-experts (MoE) : pour chaque token traité, seuls 4 experts parmi 128 sont activés, les autres restant dormants. Le modèle repose sur 8 blocs transformer avec un residual stream de largeur 640, une attention groupée (GQA) avec embeddings positionnels rotatifs (RoPE), et bénéficie d'une fenêtre de contexte de 128 000 tokens. Son entraînement s'est déroulé en trois phases distinctes : préentraînement autorégressif classique style GPT, puis conversion architecturale avec remplacement de la tête de prédiction par une tête de classification et activation d'une attention bidirectionnelle (fenêtre locale de 257 tokens), et enfin fine-tuning supervisé sur des données PII étiquetées. La publication de Privacy Filter intervient dans un contexte où les équipes techniques cherchent à intégrer des outils d'IA dans leurs pipelines de données sans envoyer d'informations sensibles vers des APIs tierces. Ce modèle s'inscrit directement dans cette tendance des outils IA déployables en local, sur du matériel standard, sans dépendance cloud. Pour les organisations soumises au RGPD ou à des contraintes de conformité strictes, la capacité à nettoyer automatiquement des logs, des datasets ou du contenu utilisateur avant stockage représente un gain opérationnel concret. OpenAI positionne ainsi Privacy Filter comme une brique d'infrastructure réutilisable, et son architecture MoE issue de la même famille que gpt-oss laisse entrevoir une stratégie de réutilisation de checkpoints préentraînés pour des tâches spécialisées, une approche plus économique que de repartir de zéro pour chaque cas d'usage.

UELes équipes techniques soumises au RGPD disposent d'un outil local gratuit pour anonymiser automatiquement les données personnelles sans les envoyer vers des APIs tierces.

OutilsOutil
1 source
NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace
46NVIDIA Developer Blog 

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace

NVIDIA a dévoilé Nemotron-N-Nano-3B-Omni, un modèle multimodal compact capable de traiter simultanément du texte, des images, des vidéos et de l'audio au sein d'une seule architecture unifiée. Conçu pour l'inférence efficace, ce modèle de 3 milliards de paramètres est publié en open weights, ce qui permet à n'importe quel développeur de le télécharger, le modifier et le déployer sans dépendre des serveurs NVIDIA. Il prend en charge le raisonnement agentique, c'est-à-dire la capacité à enchaîner des perceptions et des actions dans une boucle autonome, couvrant aussi bien l'analyse de documents que l'interprétation d'écrans ou la compréhension vocale. L'intérêt principal de ce modèle réside dans sa conception monolithique : là où les systèmes agentiques actuels assemblent des chaînes de modèles spécialisés distincts pour la vision, l'audio et le texte, Nemotron Nano Omni gère l'ensemble dans un seul passage d'inférence. Cela réduit significativement la latence, la complexité d'orchestration et le coût de calcul, tout en maintenant une cohérence contextuelle entre les modalités. Pour les entreprises qui déploient des agents IA en production, c'est une réduction directe de la facture cloud et des points de défaillance. Ce lancement s'inscrit dans la stratégie plus large de NVIDIA de dominer non seulement le matériel GPU, mais aussi la couche logicielle et les modèles fondamentaux pour l'IA d'entreprise. La série Nemotron, qui comprend également des modèles plus grands comme Nemotron-4, vise à offrir des alternatives performantes aux modèles propriétaires d'OpenAI ou d'Anthropic. Avec la montée en puissance des agents autonomes capables d'interagir avec des interfaces graphiques, des fichiers et des flux audio, un modèle omnimodal efficace et ouvert représente une brique stratégique pour la prochaine génération d'assistants et d'automatisations.

UELes développeurs et entreprises européennes peuvent déployer cet agent IA multimodal open weights directement sur leur propre infrastructure, réduisant la dépendance aux API cloud américaines et renforçant la souveraineté numérique.

Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique
47MarkTechPost 

Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique

Une équipe de chercheurs menée par Nick Levine, David Duvenaud et Alec Radford vient de publier Talkie-1930, un modèle de langage open-weight de 13 milliards de paramètres entraîné exclusivement sur des textes anglais antérieurs à 1931. Baptisé "vintage language model", le modèle a ingéré 260 milliards de tokens issus de livres, journaux, périodiques, revues scientifiques, brevets et décisions de justice datant d'avant le 31 décembre 1930. Cette date n'est pas choisie au hasard : elle correspond au seuil d'entrée dans le domaine public aux États-Unis, rendant ces textes légalement exploitables pour l'entraînement. Deux versions sont disponibles, une base (talkie-1930-13b-base) et une version ajustée pour la conversation (talkie-1930-13b-it), avec une démo accessible en continu sur talkie-lm.com/chat, où Claude Sonnet 4.6 interroge le modèle en temps réel. L'intérêt de Talkie ne réside pas dans la nostalgie, mais dans trois cas d'usage de recherche bien précis. D'abord, la contamination des benchmarks : tous les grands modèles modernes (GPT-4, LLaMA, Mistral) sont entraînés sur des crawls massifs du web contemporain, ce qui signifie que les jeux de test standard ont pu se retrouver dans leurs données d'entraînement, faussant les évaluations. Talkie, lui, est structurellement exempt de toute contamination vis-à-vis des benchmarks modernes. L'équipe a ainsi testé si le modèle pouvait apprendre Python, langage inexistant en 1930, à partir de quelques exemples en contexte : sur le benchmark HumanEval, il progresse de façon "lente mais régulière" avec l'échelle. Ensuite, le modèle permet d'étudier les capacités de prévision temporelle, en mesurant à quel point des événements historiques post-1930 le surprennent (en bits par byte) : les événements des années 1950 et 1960 sont ceux qui le déroute le plus, puis l'effet se stabilise. Enfin, le projet pose des questions fondamentales sur l'"identité" des LLM : tous les modèles actuels partagent une ascendance commune dans les données web, alors que Talkie rompt entièrement cette lignée. Ce projet s'inscrit dans un mouvement plus large de critique des méthodes d'évaluation en IA. La contamination des benchmarks est depuis plusieurs années un problème reconnu mais difficile à circonscrire, et les tentatives de créer des jeux de test inédits se heurtent toujours à la possibilité que les données aient filtré. L'approche "vintage" ouvre une voie alternative : ancrer le modèle dans un passé documenté et figé, ce qui transforme toute l'histoire moderne en terrain d'évaluation propre. Développé par une équipe à but non lucratif, Talkie-1930 pourrait devenir un outil de référence pour les chercheurs souhaitant tester la généralisation hors distribution, la robustesse des architectures Transformer, ou encore l'influence des données d'entraînement sur les comportements émergents des modèles.

UELes chercheurs européens travaillant sur l'évaluation des LLMs et la contamination des benchmarks peuvent utiliser Talkie-1930 comme outil de référence, sans impact institutionnel direct sur la France ou l'UE.

RecherchePaper
1 source
À quel point votre LLM est-il catastrophique ?
48Amazon Science 

À quel point votre LLM est-il catastrophique ?

Des chercheurs associés à l'Université de l'Illinois à Urbana-Champaign (UIUC) ont présenté cette année à l'ICLR (International Conference on Learning Representations) un nouveau cadre d'évaluation de la sécurité des grands modèles de langage, baptisé C3LLM, pour "Certifying Catastrophic Conversational Risks in LLMs". L'approche repose sur une modélisation des conversations sous forme de graphes, où chaque nœud représente un prompt et les arêtes relient les requêtes sémantiquement proches. Ce graphe permet de simuler trois niveaux de dangerosité : le cas basique où les prompts sont tirés indépendamment, le cas intermédiaire où ils suivent des chemins connectés, et le cas avancé dit de "steering adversarial", où un acteur malveillant guide progressivement le modèle vers une réponse nuisible. Les réponses du modèle cible sont ensuite jugées "catastrophiques" ou non par un mécanisme distinct basé sur ChatGPT. La méthode de Clopper-Pearson est utilisée pour calculer des bornes statistiques sur le taux d'attaques réussies, produisant non plus un simple score mais un intervalle de confiance sur le risque. Le framework a été appliqué à des modèles propriétaires disponibles au moment de l'étude, dont Claude Sonnet 4 et Nova Premier, ainsi qu'à des modèles open-weights, sur un benchmark centré sur les menaces chimiques et biologiques. Ce travail comble un angle mort majeur dans l'évaluation de la sécurité des LLMs. Les méthodes classiques de red-teaming s'appuient sur des experts humains qui construisent des prompts adversariaux de manière isolée, sans tenir compte de la dynamique conversationnelle. Or c'est précisément dans les échanges multi-tours que les comportements dangereux émergent, lorsqu'un modèle répond de façon anodine à chaque question prise séparément, mais finit par livrer des informations sensibles au fil d'un dialogue coordonné. En produisant des bornes probabilistes plutôt qu'un taux brut d'échec, C3LLM rend les résultats plus fiables et généralisables, ce qui change concrètement la façon dont les équipes de sécurité des labs peuvent comparer et certifier leurs modèles. La pression sur la sécurité des LLMs s'est considérablement accrue depuis que ces systèmes sont devenus accessibles au grand public et intégrés dans des applications critiques. Les craintes portent notamment sur leur capacité à générer du code malveillant ou à détailler la synthèse de substances toxiques si un utilisateur mal intentionné sait formuler ses questions de manière progressive. Jusqu'ici, les benchmarks existants offraient une photographie ponctuelle, insuffisante pour couvrir l'espace combinatoire des conversations possibles. C3LLM s'inscrit dans une tendance plus large de la recherche en sécurité IA, qui cherche à passer de l'audit empirique à la certification formelle, à l'image de ce qui se pratique dans d'autres domaines logiciels critiques. La prochaine étape pour ce type de framework sera probablement son intégration dans les pipelines d'évaluation continues des grands laboratoires, avant la mise en production de nouveaux modèles.

UELe cadre C3LLM pourrait alimenter les exigences de certification formelle pour les systèmes d'IA à haut risque imposées par l'AI Act européen.

SécuritéOpinion
1 source
DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend
49Latent Space 

DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend

DeepSeek a publié les 23 et 24 avril 2026 deux nouveaux modèles d'intelligence artificielle, DeepSeek V4 Pro et DeepSeek V4 Flash, marquant la première mise à jour majeure de l'architecture depuis DeepSeek V3 en décembre 2024 et DeepSeek R1 en janvier 2025. Le modèle phare, V4 Pro, embarque 1 600 milliards de paramètres au total dont 49 milliards actifs simultanément via une architecture de type Mixture of Experts (MoE), tandis que V4 Flash reste plus compact avec 284 milliards de paramètres et 13 milliards actifs. Les deux modèles ont été entraînés sur 32 à 33 000 milliards de tokens en précision FP4 et atteignent une fenêtre contextuelle d'un million de tokens, contre 128 000 pour V3.2. DeepSeek a publié sous licence MIT à la fois les versions Base et Instruct, et livre un rapport technique de 58 pages salué par de nombreux chercheurs comme l'un des mieux documentés de l'année. Cette publication représente une avancée significative pour l'écosystème des modèles open-weights. V4 Pro se classe autour de la deuxième position parmi les modèles à poids ouverts, dans une fourchette comparable à Kimi K2.6 et GLM-5.1, et rivalise selon les benchmarks avec des modèles fermés de la gamme Claude Sonnet à Opus. La fenêtre d'un million de tokens, rendue possible par deux nouvelles techniques maison nommées Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA), est l'élément le plus commenté : à cette longueur, le modèle ne consomme que 27 % des opérations flottantes et 10 % de la mémoire KV cache comparé à DeepSeek V3.2. Les performances en codage agentique et en traitement de documents longs sont particulièrement relevées. La licence MIT et la publication des poids de base ouvrent par ailleurs la voie à des variantes spécialisées et, potentiellement, à un futur DeepSeek R2 orienté raisonnement. La sortie intervient dans un contexte géopolitique tendu autour des semi-conducteurs. DeepSeek a conçu V4 pour fonctionner sur les puces Huawei Ascend via la pile CANN, réduisant explicitement sa dépendance aux GPU Nvidia soumis aux restrictions américaines à l'export. Une étape symbolique forte : les Ascend représentent encore environ un quart des volumes d'H100, mais leur compatibilité avec un modèle de cette envergure signale une trajectoire vers une autonomie technologique chinoise complète. Sur le plan technique, le rapport documente aussi l'intégration de Muon, l'optimiseur développé par Moonshot, ainsi que des hyper-connexions contraintes par variété (mHC), publiées en janvier 2025. La complexité architecturale du modèle suscite un débat dans la communauté : certains chercheurs estiment que peu de laboratoires ouverts disposent des moyens pour reproduire ou affiner une telle infrastructure, relativisant ainsi la portée réelle de la "démocratisation" annoncée.

UELa compatibilité avec les puces Huawei Ascend illustre la trajectoire vers l'autonomie technologique chinoise, renforçant indirectement les débats européens sur la souveraineté numérique et la dépendance aux semi-conducteurs américains.

💬 Le million de tokens à 10% du cache de V3.2, ça c'est de l'ingénierie sérieuse. Mais le signal fort, c'est la compatibilité Huawei Ascend : DeepSeek documente explicitement sa sortie des GPU Nvidia, et un modèle de cette taille qui tourne sur CANN, c'est pas symbolique, c'est structurel. La licence MIT fait briller les yeux, mais reproduire 1,6T de paramètres, c'est une autre conversation.

LLMsActu
1 source
DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens
50MarkTechPost 

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-AI a publié en version préliminaire la série DeepSeek-V4, composée de deux modèles de langage à architecture Mixture-of-Experts (MoE) conçus pour rendre practicables les fenêtres contextuelles d'un million de tokens. Le premier modèle, DeepSeek-V4-Pro, totalise 1 600 milliards de paramètres dont 49 milliards activés par token, et a été pré-entraîné sur 33 000 milliards de tokens. Le second, DeepSeek-V4-Flash, compte 284 milliards de paramètres au total avec 13 milliards activés, entraîné sur 32 000 milliards de tokens. Les quatre variantes de la série -- Pro, Pro-Base, Flash et Flash-Base -- sont disponibles librement sur Hugging Face. Pour atteindre cette capacité d'un million de tokens, les ingénieurs ont combiné quatre innovations architecturales majeures : un mécanisme d'attention hybride inédit, un nouveau design de connexions résiduelles, un optimiseur alternatif et un entraînement avec quantification FP4. L'enjeu central est l'efficacité à l'inférence, un problème longtemps considéré comme rédhibitoire pour les très longs contextes. Dans un Transformer standard, la complexité de l'attention est quadratique par rapport à la longueur de la séquence : doubler le contexte quadruple la mémoire et le calcul requis. DeepSeek-V4 résout cela via deux mécanismes d'attention compressée, CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), intercalés entre les couches du modèle. CSA compresse le cache clé-valeur de m tokens en une seule entrée, puis sélectionne de façon sparse les entrées les plus pertinentes pour chaque requête. HCA est encore plus agressif : il consolide un bloc encore plus large de tokens en une unique entrée dense. Résultat : DeepSeek-V4-Pro ne consomme que 27 % des opérations flottantes et 10 % de la taille de cache KV de son prédécesseur DeepSeek-V3.2 pour un contexte d'un million de tokens. DeepSeek-V4-Flash descend à 10 % des FLOPs et 7 % du cache. Ces chiffres s'inscrivent dans une course technologique où la longueur de contexte est devenue un axe de différenciation majeur entre les grands laboratoires. Google, Anthropic et OpenAI ont tous étendu leurs fenêtres contextuelles ces derniers mois, mais le coût d'inférence à grande échelle reste un frein commercial décisif. DeepSeek, laboratoire chinois financé par le hedge fund High-Flyer, s'est imposé depuis début 2025 comme un concurrent sérieux avec ses modèles open-weights performants et économes. L'introduction des connexions résiduelles contraintes par polytope de Birkhoff (mHC) et de l'optimiseur Muon -- qui orthogonalise les mises à jour de gradients avant application -- témoigne d'une recherche fondamentale poussée, au-delà de la simple course aux paramètres. La version préliminaire suggère que des annonces plus complètes, avec benchmarks détaillés, sont à prévoir prochainement.

UELes quatre variantes open-weights DeepSeek-V4 disponibles sur Hugging Face permettent aux développeurs et chercheurs européens d'exploiter des contextes d'un million de tokens à coût d'inférence fortement réduit, sans dépendance à une API propriétaire.

LLMsOpinion
1 source

Suivre Open weight & Open source en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic