LLMsMarkTechPost · 2 juin 2026, 11:00· 2 min de lecture

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking.

Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle.

Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

Impact France/UE

JetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

Dans nos dossiers

Qwen3 Open weight & Open source Microsoft Alibaba

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Latent Space

NVIDIA lance Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres

Deux annonces majeures ont dominé l'actualité IA des 3 et 4 juin 2026. NVIDIA a lancé Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres au format MoE, avec 55 milliards de paramètres actifs et une fenêtre de contexte d'un million de tokens. Entraîné sur 20 000 milliards de tokens en précision NVFP4, le modèle repose sur une architecture hybride Mamba/attention avec LatentMoE, et est publié sous licence OpenMDW 1.1 avec poids, données synthétiques, checkpoints et recettes d'entraînement. NVIDIA affirme qu'il est jusqu'à 5 fois plus rapide et 30 % moins coûteux pour les tâches agentiques. Testé indépendamment par Artificial Analysis, il obtient 47,7 sur l'Intelligence Index, ce qui en fait le modèle open weights américain le plus performant à ce jour, bien qu'il reste derrière le modèle chinois Kimi K2.6. Disponible dès le jour du lancement sur vLLM, Modal, Together AI, Fireworks, Ollama et Baseten, il génère plus de 400 tokens par seconde via BlackBox. NVIDIA a également publié Nemotron 3.5 ASR, un modèle de reconnaissance vocale en streaming de 0,6 milliard de paramètres, couvrant 40 combinaisons langue-locale avec une latence inférieure à 100 millisecondes. L'autre annonce marquante vient d'Anthropic, qui a publié une note de recherche affirmant que ses systèmes actuels présentent des signes précoces d'amélioration récursive d'eux-mêmes. Les chiffres opérationnels sont frappants : plus de 80 % du code fusionné en interne chez Anthropic est désormais écrit par Claude, les ingénieurs produisent 8 fois plus de code par trimestre qu'avant, et le taux de succès de Claude sur des tâches d'ingénierie complexes en conditions ouvertes est passé de 26 % à 76 % en six mois. Le point de données le plus saisissant concerne un benchmark interne consistant à optimiser un script d'entraînement : Claude Opus 4 obtient en moyenne une accélération de 3x, tandis que Mythos Preview, un modèle expérimental plus avancé, atteint 52x. Ce même modèle surpasse des chercheurs humains 64 % du temps lorsqu'il s'agit de suggérer la prochaine étape dans une session de recherche ayant pris une mauvaise direction. Ces résultats s'inscrivent dans un contexte où la question de la gouvernance de l'IA devient centrale. Anthropic écrit explicitement qu'il serait "bénéfique pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de frontier", appelant à des mécanismes de vérification et de coordination face à une dynamique auto-accélératrice. La publication intervient alors que ChatGPT vient de franchir le milliard d'utilisateurs actifs mensuels, avec cinq mois de retard sur les prévisions. Ensemble, le lancement d'un modèle open source de cette envergure par NVIDIA et les métriques internes d'Anthropic dessinent un moment charnière : l'IA est désormais un acteur central de sa propre évolution, et les questions de contrôle rejoignent en urgence celles de performance.

UEL'appel explicite d'Anthropic à des mécanismes de vérification et de coordination internationale du développement de l'IA de frontier résonne directement avec les ambitions régulatrices de l'AI Act européen et renforce les partisans d'une gouvernance mondiale contraignante.

💬 Ce qui m'a arrêté, c'est pas Nemotron (solide, disponible sur Ollama dès le lancement, on s'en servira). C'est les chiffres internes d'Anthropic : 80% de leur code écrit par Claude, taux de réussite sur des tâches d'ingénierie complexes passé de 26% à 76% en six mois, et un modèle expérimental qui optimise des scripts d'entraînement à 52x. Quand ceux qui construisent l'outil publient ces chiffres ET appellent dans le même document à ralentir le développement, c'est qu'ils voient quelque chose qu'on ne voit pas encore.

LLMsActu

1 source

2MarkTechPost

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale en poids ouverts, marquant l'entrée officielle de la startup française dans la génération audio. Publié sous licence CC BY-NC, le modèle repose sur une architecture hybride de 4 milliards de paramètres répartis en trois composants distincts : un décodeur Transformer de 3,4 milliards de paramètres basé sur l'architecture Ministral pour la compréhension du texte, un transformeur acoustique à flux de 390 millions de paramètres pour convertir les représentations sémantiques en caractéristiques sonores, et un codec neural de 300 millions de paramètres pour restituer une forme d'onde audio haute fidélité. Le modèle supporte neuf langues nativement — anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe — avec une attention portée aux dialectes régionaux et à la prosodie locale. Il permet également le clonage vocal zero-shot à partir de seulement trois secondes d'audio de référence. Les performances annoncées positionnent Voxtral TTS comme une alternative sérieuse aux API vocales propriétaires : le modèle atteint une latence de 70 millisecondes pour un échantillon de dix secondes (500 caractères en entrée), et un facteur temps réel d'environ 9,7x, ce qui signifie qu'il génère de l'audio près de dix fois plus vite que la durée de parole produite. Pour les développeurs qui construisent des agents conversationnels, des systèmes de traduction simultanée ou des interfaces vocales à fort trafic, cela se traduit par une réduction concrète des coûts de calcul et la capacité à absorber des charges élevées sur du matériel d'inférence standard. La séparation entre couche sémantique et couche acoustique garantit par ailleurs une cohérence sur de longs passages tout en préservant les nuances fines de la voix. Voxtral TTS s'inscrit dans une stratégie cohérente de Mistral : compléter sa pile technologique couche par couche, après ses modèles de transcription et de langage, pour proposer désormais l'ensemble du pipeline audio en open-weight. Face à des API fermées comme celles d'OpenAI ou ElevenLabs, l'offre de Mistral mise sur la souveraineté des données et l'absence de dépendance tarifaire — un argument qui résonne particulièrement auprès des entreprises européennes soumises au RGPD. La capacité d'adaptation vocale par few-shot ouvre également la voie à des expériences personnalisées à grande échelle, des voix de marque cohérentes aux assistants localisés, sans recourir à des phases de fine-tuning coûteuses. La prochaine étape logique pour Mistral serait d'intégrer Voxtral TTS dans une offre unifiée speech-to-speech, complétant le cycle entrée-sortie audio de bout en bout.

UEMistral AI, startup française, lance son premier modèle vocal open-weight, offrant aux entreprises européennes une alternative souveraine aux API fermées pour la synthèse vocale, sans dépendance tarifaire et conforme au RGPD.

LLMsOpinion

1 source

3The Decoder

Thinking Machines lance Inkling, un modèle de 975 milliards de paramètres qui devance les labos américains mais reste derrière la Chine

Voici l'article traduit et résumé : Thinking Machines Lab, le laboratoire fondé par Mira Murati, ancienne directrice technique d'OpenAI, a dévoilé Inkling, un modèle multimodal en poids ouverts comptant 975 milliards de paramètres. Selon l'Artificial Analysis Intelligence Index, ce modèle se hisse en tête des modèles ouverts américains, devançant ses concurrents domestiques sur plusieurs benchmarks, bien que les meilleurs modèles ouverts chinois conservent l'avantage sur certaines tâches spécifiques. Le prix d'accès démarre à 1,87 dollar par million de tokens en entrée. Plutôt que de le présenter comme le modèle le plus puissant du marché, Thinking Machines positionne Inkling comme une base solide destinée au fine-tuning par les développeurs. Cette annonce confirme la place de Thinking Machines parmi les acteurs sérieux de l'IA générative, un an après sa création par Murati avec d'anciens cadres d'OpenAI. Pour les entreprises et développeurs américains cherchant des alternatives ouvertes aux modèles propriétaires, Inkling offre une option compétitive taillée pour la personnalisation plutôt que l'usage generaliste immédiat. Le positionnement tarifaire et l'approche orientée fine-tuning visent un public technique désireux d'adapter le modèle à des besoins spécifiques, sans dépendre exclusivement des géants comme OpenAI, Google ou Meta. Le contexte plus large est celui d'une course mondiale à l'ouverture des modèles, où les laboratoires chinois comme DeepSeek ou Alibaba ont pris une avance notable sur les modèles ouverts, poussant les acteurs américains à réagir. Thinking Machines, avec Inkling, tente de combler cet écart tout en évitant la comparaison directe sur la puissance brute, préférant miser sur la flexibilité offerte aux développeurs. La suite dépendra de l'adoption réelle par la communauté technique et de la capacité du laboratoire à itérer face à une concurrence chinoise toujours plus agressive sur ce segment.

💬 Inkling, c'est le premier modèle ouvert américain qui assume de ne pas viser la puissance brute mais l'adaptabilité pour les devs. Sur le papier ça sonne comme un aveu de faiblesse face à DeepSeek ou Alibaba, mais en vrai c'est plutôt malin : un modèle taillé pour le fine-tuning évite justement la comparaison frontale que les Américains sont en train de perdre sur l'open source. Reste que 975 milliards de paramètres à 1,87 dollar le million de tokens, faut voir qui a vraiment les moyens de le personnaliser en interne plutôt que de louer l'accès à l'API.

LLMsActu

1 source

4MarkTechPost

Tencent lance Hy3, un modèle MoE ouvert de 295 milliards de paramètres (21 milliards actifs) et 256K de contexte

Tencent a présenté Hy3, un nouveau modèle de langage à architecture Mixture-of-Experts (MoE) doté de 295 milliards de paramètres au total, dont seulement 21 milliards sont activés à chaque requête grâce à un système de 192 experts avec routage top-8. Le modèle intègre également une couche de prédiction multi-tokens (MTP) de 3,8 milliards de paramètres, compatible avec vLLM et SGLang pour accélérer le décodage. Hy3 gère un contexte de 256 000 tokens, dispose d'un vocabulaire de 120 832 éléments et repose sur 80 couches en précision BF16, avec une version allégée en FP8 également disponible. Les poids sont publiés sous licence Apache 2.0, rendant le modèle librement réutilisable. Sur le plan des performances, Tencent revendique un score de 78,0 sur SWE-Bench Verified, 57,9 sur SWE-Bench Pro et 90,4 sur GPQA Diamond, ainsi que 90,0 sur IMOAnswerBench. Un test à l'aveugle mené auprès de 270 experts, totalisant 312 comparaisons sur des tâches réelles, a donné à Hy3 un score de 2,67 sur 4, devançant GLM-5.1 crédité de 2,51, notamment sur le développement frontend, les pipelines CI/CD et la gestion de données. Cette publication marque une avancée notable pour les modèles ouverts destinés aux usages professionnels et agentiques. Tencent a concentré une grande partie de ses efforts sur la fiabilité en production, un point souvent négligé par les modèles expérimentaux. Le taux d'hallucination est ainsi passé de 12,5 % à 5,4 % dans les évaluations internes, tandis que les erreurs de bon sens ont chuté de 25,4 % à 12,7 %. Le suivi des intentions sur plusieurs tours de conversation s'est également amélioré, avec un taux d'incidents internes réduit de 17,4 % à 7,9 %, et un score passant de 42,9 % à 75,1 % sur le benchmark de dialogue long MRCR. Ces progrès concernent directement les développeurs qui déploient des agents autonomes pour la programmation ou le traitement de documents longs, un secteur où les erreurs d'appels d'outils et les boucles infinies restent un frein majeur à l'adoption en production. Le modèle s'inscrit dans un contexte de compétition intense entre acteurs chinois et américains sur les modèles ouverts à grande échelle, avec des rivaux comme GLM-5.1 pris comme référence de comparaison directe. Hy3 expose une API compatible OpenAI, déployable via vLLM ou SGLang, avec un paramètre reasoningeffort ajustable entre "nothink", "low" et "high" selon la complexité de la tâche, les développeurs de Tencent recommandant une température de 0,9 et un top_p de 1,0. Le modèle est aussi accessible sans matériel local via OpenRouter, où une route gratuite tencent/hy3:free est proposée, mais cette gratuité doit prendre fin le 21 juillet 2026. Les cas d'usage visés incluent les agents de programmation capables d'ingérer un dépôt entier grâce à la fenêtre de contexte de 256 000 tokens, ainsi que le traitement de documents longs comme des contrats, positionnant Hy3 comme un outil taillé pour les flux de travail professionnels exigeants en fiabilité et en capacité de raisonnement.

UECe modèle ouvert sous licence Apache 2.0 élargit l'offre disponible pour les entreprises et développeurs européens souhaitant déployer des agents IA sans dépendre des acteurs américains, mais aucune entité ou régulation française ou européenne n'est directement impliquée.

LLMsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic