Aller au contenu principal
JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles
LLMsMarkTechPost2sem· 2 min de lecture

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

Source originale ↗·

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking.

Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle.

Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

Impact France/UE

JetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel
1MarkTechPost 

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale en poids ouverts, marquant l'entrée officielle de la startup française dans la génération audio. Publié sous licence CC BY-NC, le modèle repose sur une architecture hybride de 4 milliards de paramètres répartis en trois composants distincts : un décodeur Transformer de 3,4 milliards de paramètres basé sur l'architecture Ministral pour la compréhension du texte, un transformeur acoustique à flux de 390 millions de paramètres pour convertir les représentations sémantiques en caractéristiques sonores, et un codec neural de 300 millions de paramètres pour restituer une forme d'onde audio haute fidélité. Le modèle supporte neuf langues nativement — anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe — avec une attention portée aux dialectes régionaux et à la prosodie locale. Il permet également le clonage vocal zero-shot à partir de seulement trois secondes d'audio de référence. Les performances annoncées positionnent Voxtral TTS comme une alternative sérieuse aux API vocales propriétaires : le modèle atteint une latence de 70 millisecondes pour un échantillon de dix secondes (500 caractères en entrée), et un facteur temps réel d'environ 9,7x, ce qui signifie qu'il génère de l'audio près de dix fois plus vite que la durée de parole produite. Pour les développeurs qui construisent des agents conversationnels, des systèmes de traduction simultanée ou des interfaces vocales à fort trafic, cela se traduit par une réduction concrète des coûts de calcul et la capacité à absorber des charges élevées sur du matériel d'inférence standard. La séparation entre couche sémantique et couche acoustique garantit par ailleurs une cohérence sur de longs passages tout en préservant les nuances fines de la voix. Voxtral TTS s'inscrit dans une stratégie cohérente de Mistral : compléter sa pile technologique couche par couche, après ses modèles de transcription et de langage, pour proposer désormais l'ensemble du pipeline audio en open-weight. Face à des API fermées comme celles d'OpenAI ou ElevenLabs, l'offre de Mistral mise sur la souveraineté des données et l'absence de dépendance tarifaire — un argument qui résonne particulièrement auprès des entreprises européennes soumises au RGPD. La capacité d'adaptation vocale par few-shot ouvre également la voie à des expériences personnalisées à grande échelle, des voix de marque cohérentes aux assistants localisés, sans recourir à des phases de fine-tuning coûteuses. La prochaine étape logique pour Mistral serait d'intégrer Voxtral TTS dans une offre unifiée speech-to-speech, complétant le cycle entrée-sortie audio de bout en bout.

UEMistral AI, startup française, lance son premier modèle vocal open-weight, offrant aux entreprises européennes une alternative souveraine aux API fermées pour la synthèse vocale, sans dépendance tarifaire et conforme au RGPD.

LLMsOpinion
1 source
Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100
2MarkTechPost 

Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100

Cohere a publié Command A+, un modèle open source sous licence Apache 2.0 conçu pour les workflows agentiques en entreprise. Architecturé comme un Transformer sparse Mixture-of-Experts (MoE) décodeur uniquement, le modèle totalise 218 milliards de paramètres mais n'en active que 25 milliards par inférence, grâce à un mécanisme de routage vers 8 experts parmi 128 disponibles. Cette architecture permet de faire tourner Command A+ sur seulement deux GPU H100 en quantification W4A4 4 bits, ou sur quatre H100 en FP8, rendant le déploiement on-premise accessible sans infrastructure exorbitante. Le modèle prend en charge une fenêtre de contexte de 128 000 tokens, génère jusqu'à 64 000 tokens, traite texte, images et appels d'outils, et couvre désormais 48 langues contre 23 pour ses prédécesseurs. Il fusionne en un seul modèle les capacités de quatre modèles précédents : Command A, Command A Reasoning, Command A Vision et Command A Translate. Les gains de performance sont substantiels. Sur le benchmark tau²-Bench Telecom, Command A+ passe de 37 % à 85 % par rapport à Command A Reasoning. Sur Terminal-Bench Hard, référence pour le codage agentique difficile, le score bondit de 3 % à 25 %. En interne, Cohere mesure une amélioration de 20 % en question-réponse agentique, de 32 % en analyse de tableurs, et la capacité à exploiter la mémoire de sessions précédentes atteint 54 % contre 39 %. Sur le plan multimodal, MathVista progresse de 73,5 % à 80,6 % et Command A+ décroche 37 points sur l'Artificial Analysis Intelligence Index, devançant les principaux modèles open source concurrents. La quantification W4A4, appliquée uniquement aux couches MoE tout en conservant les projections d'attention en pleine précision, n'entraîne aucune dégradation mesurable sur les benchmarks et améliore le débit de sortie de 63 % tout en réduisant le temps avant premier token de 17 % par rapport à Command A Reasoning. Command A+ s'inscrit dans une tendance de fond qui voit les grands laboratoires chercher à réduire drastiquement le coût d'inférence sans sacrifier la qualité. Cohere, positionné historiquement sur le segment entreprise face à OpenAI, Anthropic et Google, mise sur la portabilité et la souveraineté des déploiements : la licence Apache 2.0 permet un usage commercial libre, un argument de poids pour les organisations qui refusent de dépendre de fournisseurs cloud. La technique de distillation avec prise en compte de la quantification (Quantization-Aware Distillation) utilisée en post-entraînement illustre la maturité croissante des méthodes de compression, qui commencent à rivaliser avec les modèles denses pleine précision sur des tâches complexes. La prochaine question sera de savoir si des performances agentiques aussi élevées sur deux H100 suffiront à convaincre les DSI d'internaliser leurs inférences plutôt que de passer par les API managées.

UELa licence Apache 2.0 et la possibilité de déployer Command A+ sur seulement deux GPU H100 ouvrent aux entreprises européennes une option d'inférence on-premise souveraine, réduisant leur dépendance aux APIs cloud américaines.

LLMsOpinion
1 source
Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales
3MarkTechPost 

Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales

Mistral AI lance Mistral Small 4, un modèle MoE de 119 milliards de paramètres (6B actifs par token) qui unifie pour la première fois les capacités d'instruction, de raisonnement, de vision et de codage agentique en un seul modèle. Il supporte une fenêtre de contexte de 256k tokens et introduit un paramètre reasoning_effort configurable à l'inférence, permettant de choisir entre réponse rapide et raisonnement approfondi sans changer de modèle. Par rapport à Mistral Small 3, il affiche une réduction de 40% du temps de complétion et un débit 3x supérieur en configuration optimisée.

UEMistral AI, entreprise française, élargit son offre avec un modèle multimodal unifié performant, renforçant la compétitivité européenne dans la course aux LLMs face aux acteurs américains et asiatiques.

LLMsActu
1 source
NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes
4MarkTechPost 

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés. Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas. Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.

UELa publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.

💬 L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic