Aller au contenu principal
Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales
LLMsMarkTechPost12sem· 1 min de lecture

Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales

Source originale ↗·

Mistral AI franchit une étape importante avec le lancement de Mistral Small 4, un modèle d'architecture Mixture-of-Experts (MoE) qui unifie pour la première fois sous un seul déploiement des capacités jusqu'ici réparties entre plusieurs modèles distincts : suivi d'instructions, raisonnement, compréhension multimodale et codage agentique.

Ce choix architectural répond à une friction réelle dans les environnements de production : la nécessité de router les requêtes entre plusieurs modèles spécialisés selon leur nature. Mistral Small 4 supprime ce besoin en exposant un unique point d'entrée API capable de gérer aussi bien les tâches conversationnelles légères que les raisonnements complexes ou l'analyse d'images — une simplification significative pour les équipes d'ingénierie qui gèrent des infrastructures d'inférence à grande échelle.

Sur le plan technique, le modèle repose sur 128 experts dont 4 sont activés par token, pour un total de 119 milliards de paramètres mais seulement 6 milliards actifs par inférence. Il prend en charge une fenêtre de contexte de 256 000 tokens. L'innovation la plus notable reste le paramètre reasoning_effort configurable à la requête : réglé sur none, il produit des réponses rapides comparables à Mistral Small 3.2 ; réglé sur high, il active un raisonnement pas-à-pas équivalent aux anciens modèles Magistral. En termes de performances, Mistral annonce une réduction de 40 % du temps de complétion et 3x plus de requêtes par seconde face à Small 3, tout en surpassant GPT-OSS 120B sur LiveCodeBench et AIME 2025 avec 20 % de tokens générés en moins.

Cette dernière métrique — la performance par token généré — est au cœur du positionnement commercial de Mistral : face aux modèles Qwen qui nécessitent entre 5 800 et 6 100 caractères pour des résultats comparables sur les benchmarks de raisonnement, Small 4 atteint des performances équivalentes avec seulement 1 600 caractères, ce qui se traduit directement par une réduction de la latence et des coûts d'inférence en production.

Impact France/UE

Mistral AI, entreprise française, élargit son offre avec un modèle multimodal unifié performant, renforçant la compétitivité européenne dans la course aux LLMs face aux acteurs américains et asiatiques.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel
1MarkTechPost 

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale en poids ouverts, marquant l'entrée officielle de la startup française dans la génération audio. Publié sous licence CC BY-NC, le modèle repose sur une architecture hybride de 4 milliards de paramètres répartis en trois composants distincts : un décodeur Transformer de 3,4 milliards de paramètres basé sur l'architecture Ministral pour la compréhension du texte, un transformeur acoustique à flux de 390 millions de paramètres pour convertir les représentations sémantiques en caractéristiques sonores, et un codec neural de 300 millions de paramètres pour restituer une forme d'onde audio haute fidélité. Le modèle supporte neuf langues nativement — anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe — avec une attention portée aux dialectes régionaux et à la prosodie locale. Il permet également le clonage vocal zero-shot à partir de seulement trois secondes d'audio de référence. Les performances annoncées positionnent Voxtral TTS comme une alternative sérieuse aux API vocales propriétaires : le modèle atteint une latence de 70 millisecondes pour un échantillon de dix secondes (500 caractères en entrée), et un facteur temps réel d'environ 9,7x, ce qui signifie qu'il génère de l'audio près de dix fois plus vite que la durée de parole produite. Pour les développeurs qui construisent des agents conversationnels, des systèmes de traduction simultanée ou des interfaces vocales à fort trafic, cela se traduit par une réduction concrète des coûts de calcul et la capacité à absorber des charges élevées sur du matériel d'inférence standard. La séparation entre couche sémantique et couche acoustique garantit par ailleurs une cohérence sur de longs passages tout en préservant les nuances fines de la voix. Voxtral TTS s'inscrit dans une stratégie cohérente de Mistral : compléter sa pile technologique couche par couche, après ses modèles de transcription et de langage, pour proposer désormais l'ensemble du pipeline audio en open-weight. Face à des API fermées comme celles d'OpenAI ou ElevenLabs, l'offre de Mistral mise sur la souveraineté des données et l'absence de dépendance tarifaire — un argument qui résonne particulièrement auprès des entreprises européennes soumises au RGPD. La capacité d'adaptation vocale par few-shot ouvre également la voie à des expériences personnalisées à grande échelle, des voix de marque cohérentes aux assistants localisés, sans recourir à des phases de fine-tuning coûteuses. La prochaine étape logique pour Mistral serait d'intégrer Voxtral TTS dans une offre unifiée speech-to-speech, complétant le cycle entrée-sortie audio de bout en bout.

UEMistral AI, startup française, lance son premier modèle vocal open-weight, offrant aux entreprises européennes une alternative souveraine aux API fermées pour la synthèse vocale, sans dépendance tarifaire et conforme au RGPD.

LLMsOpinion
1 source
JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles
2MarkTechPost 

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking. Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle. Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

UEJetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

LLMsOpinion
1 source
NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres
3MarkTechPost 

NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres

NVIDIA Research a présenté Star Elastic, une nouvelle méthode post-entraînement qui permet d'intégrer plusieurs sous-modèles de tailles différentes au sein d'un unique checkpoint. Appliquée à Nemotron Nano v3, un modèle hybride Mamba-Transformer-MoE de 30 milliards de paramètres au total (3,6 milliards actifs), la technique génère deux variantes imbriquées : une version 23B (2,8B actifs) et une version 12B (2,0B actifs). Les trois modèles sont entraînés en une seule passe sur environ 160 milliards de tokens, puis stockés dans un seul fichier de poids. Aucun fine-tuning supplémentaire n'est nécessaire pour extraire l'une ou l'autre variante. Jusqu'ici, produire une famille de modèles signifiait multiplier les entraînements complets, les volumes de stockage et les infrastructures de déploiement. Star Elastic tranche ce problème en identifiant, pour chaque budget de paramètres cible, quels composants du modèle parent contribuent le plus à la précision : canaux d'embedding, têtes d'attention, experts MoE, dimensions intermédiaires des couches FFN. Ces composants sont classés par importance, de sorte que les sous-modèles plus petits réutilisent toujours le sous-ensemble le plus performant du modèle plus grand. Pour les couches MoE, la méthode introduit le Router-Weighted Expert Activation Pruning (REAP), qui sélectionne les experts en combinant les valeurs des gates de routage et les magnitudes de sortie, un signal plus fiable que la simple fréquence d'activation. L'architecture de chaque variante est déterminée par un routeur entraînable de bout en bout via Gumbel-Softmax, qui apprend à prendre des décisions architecturales en optimisant simultanément la distillation de connaissance depuis le modèle parent et le respect d'un budget de ressources cible. La pression pour réduire le coût du déploiement de LLMs est constante, notamment pour les équipes qui veulent proposer plusieurs niveaux de qualité sans doubler les coûts d'infrastructure. Star Elastic s'inscrit dans une lignée de techniques de compression comme Minitron (déjà développé par NVIDIA), mais s'en distingue par son routeur différentiable et son entraînement en deux phases : une première sur des contextes courts de 8 192 tokens, puis une seconde sur des contextes longs de 49 152 tokens avec sur-représentation du modèle 30B complet (probabilité 0,5 contre 0,3 pour le 23B et 0,2 pour le 12B). Les ablations sur Nemotron Nano v2 montrent que cette seconde phase seule apporte jusqu'à 19,8 points de gain sur AIME-2025 pour une variante 6B, ce qui justifie son inclusion systématique. La méthode ouvre la voie à des déploiements adaptatifs où un même checkpoint peut servir différentes phases de raisonnement selon les contraintes de latence ou de mémoire disponible.

💬 Un checkpoint, trois modèles, zéro fine-tuning supplémentaire. C'est le genre de truc qui semble évident avec le recul mais qui demandait jusqu'ici de lancer trois entraînements complets, trois pipelines de déploiement, trois factures de stockage. Reste à voir si les variantes 12B et 23B tiennent vraiment face à des modèles entraînés séparément, parce que "imbriqué dans le même fichier" et "aussi bon qu'un modèle dédié", c'est pas forcément la même chose.

LLMsOpinion
1 source
4MarkTechPost 

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles

Meta Superintelligence Labs a dévoilé Muse Spark, le premier modèle de sa famille Muse, marquant une étape majeure dans la course aux modèles de raisonnement multimodaux. Conçu nativement pour traiter texte et images de manière simultanée -- et non via un module visuel ajouté après coup -- Muse Spark intègre l'utilisation d'outils, un raisonnement visuel en chaîne de pensée, et une orchestration multi-agents. Sur le benchmark ScreenSpot Pro, qui évalue la capacité à localiser des éléments d'interface dans des captures d'écran, le modèle obtient un score de 72,2 (84,1 avec outils Python), devançant Claude Opus 4.6 Max à 57,7 et GPT-5.4 Xhigh à 39,0. Ces chiffres positionnent Muse Spark parmi les meilleurs modèles actuels sur les tâches combinant vision et langage. Ce qui distingue techniquement Muse Spark, c'est l'approche de Meta autour de trois axes de montée en puissance : le préentraînement, l'apprentissage par renforcement (RL), et le raisonnement au moment de l'inférence. Sur le préentraînement, Meta a entièrement reconstruit sa pile technique en neuf mois, atteignant les mêmes capacités que son précédent modèle Llama 4 Maverick avec dix fois moins de calcul. Le RL, appliqué après le préentraînement, entraîne le modèle à produire de bonnes réponses plutôt qu'à simplement prédire des tokens -- Meta annonce une progression log-linéaire stable sur les métriques pass@1 et pass@16. Enfin, le raisonnement à l'inférence introduit un phénomène que l'équipe appelle "thought compression" : le modèle apprend d'abord à penser plus longtemps pour mieux répondre, puis une pénalité sur la longueur de la réflexion le force à comprimer son raisonnement, avant qu'il n'étende à nouveau ses solutions pour atteindre de meilleures performances. Cette dynamique produit un modèle plus efficace par token généré. Le mode Contemplating représente peut-être l'innovation architecturale la plus audacieuse : Muse Spark peut orchestrer plusieurs agents en parallèle au moment de l'inférence, chacun explorant une piste de raisonnement différente. Ce choix s'inscrit dans une stratégie plus large de Meta, qui investit massivement dans l'infrastructure -- dont le data center Hyperion -- pour soutenir ces trois axes de scaling simultanément. La division a été rebaptisée Meta Superintelligence Labs, signalant une ambition explicite de leadership sur l'AGI. Avec OpenAI, Google DeepMind et Anthropic qui poussent chacun leurs propres architectures de raisonnement, la sortie de Muse Spark illustre que la prochaine frontière ne sera pas seulement la taille des modèles, mais la manière dont ils apprennent à penser -- et à comprimer cette pensée -- avant de répondre.

UELes développeurs et entreprises européens pourront utiliser un nouveau modèle multimodal de référence, mais aucun impact réglementaire ou commercial direct sur la France ou l'UE n'est à noter.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic