Aller au contenu principal
LLMsMarkTechPost4h

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

Résumé IASource uniqueImpact UE
Source originale ↗·

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking.

Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle.

Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

Impact France/UE

JetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel
1MarkTechPost 

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale en poids ouverts, marquant l'entrée officielle de la startup française dans la génération audio. Publié sous licence CC BY-NC, le modèle repose sur une architecture hybride de 4 milliards de paramètres répartis en trois composants distincts : un décodeur Transformer de 3,4 milliards de paramètres basé sur l'architecture Ministral pour la compréhension du texte, un transformeur acoustique à flux de 390 millions de paramètres pour convertir les représentations sémantiques en caractéristiques sonores, et un codec neural de 300 millions de paramètres pour restituer une forme d'onde audio haute fidélité. Le modèle supporte neuf langues nativement — anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe — avec une attention portée aux dialectes régionaux et à la prosodie locale. Il permet également le clonage vocal zero-shot à partir de seulement trois secondes d'audio de référence. Les performances annoncées positionnent Voxtral TTS comme une alternative sérieuse aux API vocales propriétaires : le modèle atteint une latence de 70 millisecondes pour un échantillon de dix secondes (500 caractères en entrée), et un facteur temps réel d'environ 9,7x, ce qui signifie qu'il génère de l'audio près de dix fois plus vite que la durée de parole produite. Pour les développeurs qui construisent des agents conversationnels, des systèmes de traduction simultanée ou des interfaces vocales à fort trafic, cela se traduit par une réduction concrète des coûts de calcul et la capacité à absorber des charges élevées sur du matériel d'inférence standard. La séparation entre couche sémantique et couche acoustique garantit par ailleurs une cohérence sur de longs passages tout en préservant les nuances fines de la voix. Voxtral TTS s'inscrit dans une stratégie cohérente de Mistral : compléter sa pile technologique couche par couche, après ses modèles de transcription et de langage, pour proposer désormais l'ensemble du pipeline audio en open-weight. Face à des API fermées comme celles d'OpenAI ou ElevenLabs, l'offre de Mistral mise sur la souveraineté des données et l'absence de dépendance tarifaire — un argument qui résonne particulièrement auprès des entreprises européennes soumises au RGPD. La capacité d'adaptation vocale par few-shot ouvre également la voie à des expériences personnalisées à grande échelle, des voix de marque cohérentes aux assistants localisés, sans recourir à des phases de fine-tuning coûteuses. La prochaine étape logique pour Mistral serait d'intégrer Voxtral TTS dans une offre unifiée speech-to-speech, complétant le cycle entrée-sortie audio de bout en bout.

UEMistral AI, startup française, lance son premier modèle vocal open-weight, offrant aux entreprises européennes une alternative souveraine aux API fermées pour la synthèse vocale, sans dépendance tarifaire et conforme au RGPD.

LLMsOpinion
1 source
Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100
2MarkTechPost 

Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100

Cohere a publié Command A+, un modèle open source sous licence Apache 2.0 conçu pour les workflows agentiques en entreprise. Architecturé comme un Transformer sparse Mixture-of-Experts (MoE) décodeur uniquement, le modèle totalise 218 milliards de paramètres mais n'en active que 25 milliards par inférence, grâce à un mécanisme de routage vers 8 experts parmi 128 disponibles. Cette architecture permet de faire tourner Command A+ sur seulement deux GPU H100 en quantification W4A4 4 bits, ou sur quatre H100 en FP8, rendant le déploiement on-premise accessible sans infrastructure exorbitante. Le modèle prend en charge une fenêtre de contexte de 128 000 tokens, génère jusqu'à 64 000 tokens, traite texte, images et appels d'outils, et couvre désormais 48 langues contre 23 pour ses prédécesseurs. Il fusionne en un seul modèle les capacités de quatre modèles précédents : Command A, Command A Reasoning, Command A Vision et Command A Translate. Les gains de performance sont substantiels. Sur le benchmark tau²-Bench Telecom, Command A+ passe de 37 % à 85 % par rapport à Command A Reasoning. Sur Terminal-Bench Hard, référence pour le codage agentique difficile, le score bondit de 3 % à 25 %. En interne, Cohere mesure une amélioration de 20 % en question-réponse agentique, de 32 % en analyse de tableurs, et la capacité à exploiter la mémoire de sessions précédentes atteint 54 % contre 39 %. Sur le plan multimodal, MathVista progresse de 73,5 % à 80,6 % et Command A+ décroche 37 points sur l'Artificial Analysis Intelligence Index, devançant les principaux modèles open source concurrents. La quantification W4A4, appliquée uniquement aux couches MoE tout en conservant les projections d'attention en pleine précision, n'entraîne aucune dégradation mesurable sur les benchmarks et améliore le débit de sortie de 63 % tout en réduisant le temps avant premier token de 17 % par rapport à Command A Reasoning. Command A+ s'inscrit dans une tendance de fond qui voit les grands laboratoires chercher à réduire drastiquement le coût d'inférence sans sacrifier la qualité. Cohere, positionné historiquement sur le segment entreprise face à OpenAI, Anthropic et Google, mise sur la portabilité et la souveraineté des déploiements : la licence Apache 2.0 permet un usage commercial libre, un argument de poids pour les organisations qui refusent de dépendre de fournisseurs cloud. La technique de distillation avec prise en compte de la quantification (Quantization-Aware Distillation) utilisée en post-entraînement illustre la maturité croissante des méthodes de compression, qui commencent à rivaliser avec les modèles denses pleine précision sur des tâches complexes. La prochaine question sera de savoir si des performances agentiques aussi élevées sur deux H100 suffiront à convaincre les DSI d'internaliser leurs inférences plutôt que de passer par les API managées.

UELa licence Apache 2.0 et la possibilité de déployer Command A+ sur seulement deux GPU H100 ouvrent aux entreprises européennes une option d'inférence on-premise souveraine, réduisant leur dépendance aux APIs cloud américaines.

LLMsOpinion
1 source
Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales
3MarkTechPost 

Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales

Mistral AI lance Mistral Small 4, un modèle MoE de 119 milliards de paramètres (6B actifs par token) qui unifie pour la première fois les capacités d'instruction, de raisonnement, de vision et de codage agentique en un seul modèle. Il supporte une fenêtre de contexte de 256k tokens et introduit un paramètre reasoning_effort configurable à l'inférence, permettant de choisir entre réponse rapide et raisonnement approfondi sans changer de modèle. Par rapport à Mistral Small 3, il affiche une réduction de 40% du temps de complétion et un débit 3x supérieur en configuration optimisée.

UEMistral AI, entreprise française, élargit son offre avec un modèle multimodal unifié performant, renforçant la compétitivité européenne dans la course aux LLMs face aux acteurs américains et asiatiques.

LLMsActu
1 source
NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres
4MarkTechPost 

NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres

NVIDIA Research a présenté Star Elastic, une nouvelle méthode post-entraînement qui permet d'intégrer plusieurs sous-modèles de tailles différentes au sein d'un unique checkpoint. Appliquée à Nemotron Nano v3, un modèle hybride Mamba-Transformer-MoE de 30 milliards de paramètres au total (3,6 milliards actifs), la technique génère deux variantes imbriquées : une version 23B (2,8B actifs) et une version 12B (2,0B actifs). Les trois modèles sont entraînés en une seule passe sur environ 160 milliards de tokens, puis stockés dans un seul fichier de poids. Aucun fine-tuning supplémentaire n'est nécessaire pour extraire l'une ou l'autre variante. Jusqu'ici, produire une famille de modèles signifiait multiplier les entraînements complets, les volumes de stockage et les infrastructures de déploiement. Star Elastic tranche ce problème en identifiant, pour chaque budget de paramètres cible, quels composants du modèle parent contribuent le plus à la précision : canaux d'embedding, têtes d'attention, experts MoE, dimensions intermédiaires des couches FFN. Ces composants sont classés par importance, de sorte que les sous-modèles plus petits réutilisent toujours le sous-ensemble le plus performant du modèle plus grand. Pour les couches MoE, la méthode introduit le Router-Weighted Expert Activation Pruning (REAP), qui sélectionne les experts en combinant les valeurs des gates de routage et les magnitudes de sortie, un signal plus fiable que la simple fréquence d'activation. L'architecture de chaque variante est déterminée par un routeur entraînable de bout en bout via Gumbel-Softmax, qui apprend à prendre des décisions architecturales en optimisant simultanément la distillation de connaissance depuis le modèle parent et le respect d'un budget de ressources cible. La pression pour réduire le coût du déploiement de LLMs est constante, notamment pour les équipes qui veulent proposer plusieurs niveaux de qualité sans doubler les coûts d'infrastructure. Star Elastic s'inscrit dans une lignée de techniques de compression comme Minitron (déjà développé par NVIDIA), mais s'en distingue par son routeur différentiable et son entraînement en deux phases : une première sur des contextes courts de 8 192 tokens, puis une seconde sur des contextes longs de 49 152 tokens avec sur-représentation du modèle 30B complet (probabilité 0,5 contre 0,3 pour le 23B et 0,2 pour le 12B). Les ablations sur Nemotron Nano v2 montrent que cette seconde phase seule apporte jusqu'à 19,8 points de gain sur AIME-2025 pour une variante 6B, ce qui justifie son inclusion systématique. La méthode ouvre la voie à des déploiements adaptatifs où un même checkpoint peut servir différentes phases de raisonnement selon les contraintes de latence ou de mémoire disponible.

💬 Un checkpoint, trois modèles, zéro fine-tuning supplémentaire. C'est le genre de truc qui semble évident avec le recul mais qui demandait jusqu'ici de lancer trois entraînements complets, trois pipelines de déploiement, trois factures de stockage. Reste à voir si les variantes 12B et 23B tiennent vraiment face à des modèles entraînés séparément, parce que "imbriqué dans le même fichier" et "aussi bon qu'un modèle dédié", c'est pas forcément la même chose.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour