
MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides
MiniMax, laboratoire chinois d'intelligence artificielle, vient de publier un rapport technique approfondi sur sa série de modèles de langage M2 (M2, M2.5 et M2.7), tout en dévoilant les premières caractéristiques de sa prochaine génération, M3. Le document révèle l'architecture interne de M2 : un Transformer de type Mixture-of-Experts (MoE) totalisant 229,9 milliards de paramètres, dont seulement 9,8 milliards sont activés à chaque token, répartis entre 256 experts spécialisés. Pour éviter les déséquilibres de charge habituels dans ce type d'architecture, MiniMax a développé un système de routage original combinant une activation sigmoïde et des biais appris par expert. Surtout, la société annonce que M3 adoptera un nouveau mécanisme d'attention sub-quadratique qui permettrait un décodage jusqu'à 15,6 fois plus rapide sur des contextes d'un million de tokens, rendant le déploiement d'agents IA sur des documents ultra-longs économiquement viable pour la première fois.
L'enjeu est considérable pour les entreprises qui travaillent avec de grands volumes de texte. Dans les LLM classiques, l'attention standard oblige chaque token à interagir mathématiquement avec tous les autres, ce qui fait exploser les besoins en mémoire et en calcul à mesure que les séquences s'allongent. Traiter un million de tokens avec ce système revient à mobiliser des ressources matérielles prohibitives. Le passage à une approche sub-quadratique, si elle préserve la qualité de compréhension, ouvrirait la voie à des agents capables d'ingérer des contrats, des bases de connaissances entières ou des historiques de conversations très longs sans coût exorbitant. Adina Yakup, chercheuse chez Hugging Face, a salué le travail sur X : "Au-delà des benchmarks, ils ont accompli un travail solide sur l'efficacité des MoE et la conception orientée agents."
MiniMax s'inscrit dans une vague de laboratoires chinois, aux côtés de DeepSeek et Xiaomi, qui challengent frontalement les modèles américains dominants en proposant des performances de premier rang sous licences open source permissives, adaptées aux usages commerciaux. La série M2 avait atteint le haut des classements open source à sa sortie avant d'être dépassée par des concurrents ; le rapport publié constitue désormais un manuel de référence pour les équipes qui cherchent à entraîner ou affiner leurs propres modèles en interne. Le vrai pari de M3 sera de résoudre le compromis historique des méthodes sub-quadratiques, comme l'attention par fenêtre glissante, qui réduisent les coûts de calcul mais font perdre au modèle la vision d'ensemble des contextes distants. Si MiniMax tient ses promesses de vitesse sans sacrifier la précision, M3 pourrait redéfinir les standards d'efficacité pour les agents IA à grande échelle.
Les équipes européennes développant des agents IA sur de longs contextes pourraient bénéficier des modèles open source de MiniMax pour réduire leurs coûts d'inférence, si M3 tient ses promesses de vitesse sans perte de précision.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



