MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes
MiniMax a lancé le 1er juin 2026 son nouveau modèle MiniMax M3, successeur du M2.7 dans la série M. La nouveauté architecturale centrale est la MSA (MiniMax Sparse Attention), un mécanisme d'attention creuse qui permet une fenêtre de contexte d'un million de tokens tout en ramenant le coût de calcul par token à seulement 1/20e de celui des modèles M2 précédents à cette longueur. Concrètement, l'étape de préfill est accélérée de plus de 9 fois et le décodage de plus de 15 fois au niveau du million de tokens. M3 intègre nativement la compréhension d'images et de vidéos ainsi que le contrôle de l'ordinateur de bureau, sans modules additionnels. Le modèle est disponible immédiatement via l'API MiniMax, MiniMax Code et le MiniMax Token Plan. Les poids open-weight et le rapport technique complet sont annoncés dans les dix jours suivant la sortie.
Sur les benchmarks de programmation autonome, M3 atteint 59 % sur SWE-Bench Pro, surpassant GPT-5.5 et Gemini 3.1 Pro et s'approchant de Claude Opus 4.7. Il obtient également 66 % sur Terminal-Bench 2.1, 74,2 % sur MCP Atlas, le meilleur score parmi les modèles évalués sur Claw-Eval, et 70,06 % de taux de complétion sur OSWorld-Verified, un benchmark de contrôle d'interface utilisateur sur 361 tâches. Pour les développeurs et les équipes d'ingénierie, ces chiffres signifient un modèle capable d'ingérer des bases de code complètes en contexte, de raisonner sur de longues séquences vidéo et de mener des workflows de développement multi-tours sans perdre la cohérence. MiniMax a également conçu un simulateur d'interaction développeur pour l'entraînement, reproduisant des scénarios réels comme l'élaboration d'exigences, les corrections itératives et les changements de tâche en cours de session, afin de réduire l'écart entre performances sur benchmarks statiques et usages réels en production.
L'architecture MSA s'attaque à un problème structurel des transformers classiques : la complexité quadratique de l'attention standard, qui rend le traitement de très longs contextes prohibitif en calcul et en mémoire. Là où des approches concurrentes comme DSA ou MoBA proposent des solutions partielles, MiniMax affirme que MSA partitionne le cache KV de manière plus précise, chaque bloc n'étant lu qu'une seule fois avec un accès mémoire contigu grâce à l'approche dite "KV outer gather Q". L'équipe reporte un gain supérieur à 4 fois par rapport aux implémentations open-source de référence comme Flash-Sparse-Attention. M3 s'inscrit dans une compétition intense entre labs pour combiner grande fenêtre de contexte, multimodalité native et capacités agentiques dans un seul modèle open-weight, segment où MiniMax revendique une première mondiale. La publication prochaine des poids permettra à la communauté de vérifier ces affirmations de manière indépendante, ce qui constituera un test décisif pour la crédibilité du modèle face à Gemini 2.5 Pro, aux modèles Claude ou aux futurs lancements de Qwen.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




