
Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales
Mistral AI franchit une étape importante avec le lancement de Mistral Small 4, un modèle d'architecture Mixture-of-Experts (MoE) qui unifie pour la première fois sous un seul déploiement des capacités jusqu'ici réparties entre plusieurs modèles distincts : suivi d'instructions, raisonnement, compréhension multimodale et codage agentique.
Ce choix architectural répond à une friction réelle dans les environnements de production : la nécessité de router les requêtes entre plusieurs modèles spécialisés selon leur nature. Mistral Small 4 supprime ce besoin en exposant un unique point d'entrée API capable de gérer aussi bien les tâches conversationnelles légères que les raisonnements complexes ou l'analyse d'images — une simplification significative pour les équipes d'ingénierie qui gèrent des infrastructures d'inférence à grande échelle.
Sur le plan technique, le modèle repose sur 128 experts dont 4 sont activés par token, pour un total de 119 milliards de paramètres mais seulement 6 milliards actifs par inférence. Il prend en charge une fenêtre de contexte de 256 000 tokens. L'innovation la plus notable reste le paramètre reasoning_effort configurable à la requête : réglé sur none, il produit des réponses rapides comparables à Mistral Small 3.2 ; réglé sur high, il active un raisonnement pas-à-pas équivalent aux anciens modèles Magistral. En termes de performances, Mistral annonce une réduction de 40 % du temps de complétion et 3x plus de requêtes par seconde face à Small 3, tout en surpassant GPT-OSS 120B sur LiveCodeBench et AIME 2025 avec 20 % de tokens générés en moins.
Cette dernière métrique — la performance par token généré — est au cœur du positionnement commercial de Mistral : face aux modèles Qwen qui nécessitent entre 5 800 et 6 100 caractères pour des résultats comparables sur les benchmarks de raisonnement, Small 4 atteint des performances équivalentes avec seulement 1 600 caractères, ce qui se traduit directement par une réduction de la latence et des coûts d'inférence en production.
Mistral AI, entreprise française, élargit son offre avec un modèle multimodal unifié performant, renforçant la compétitivité européenne dans la course aux LLMs face aux acteurs américains et asiatiques.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



