Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO
Une équipe de chercheurs issus de Carnegie Mellon University, Princeton University, Together AI et Cartesia AI a présenté Mamba-3, une nouvelle architecture de modèle de langage conçue dès le départ pour maximiser l'efficacité à l'inférence. Là où les Transformers souffrent d'une complexité quadratique et de besoins mémoire croissants, Mamba-3 s'appuie sur le cadre des State Space Models (SSM) pour lever ces goulots d'étranglement, avec trois innovations méthodologiques majeures.
L'enjeu est de taille : à mesure que la puissance de calcul à l'inférence devient le principal levier de performance des LLM, les architectures doivent évoluer au-delà des seules métriques de qualité. Les déploiements à grande échelle se heurtent aux limites matérielles des GPU modernes — notamment le H100 — dont les phases de décodage restent très en dessous du régime compute-bound, avec une intensité arithmétique d'environ 2,5 opérations par octet pour les SSM classiques.
Mamba-3 répond à ces contraintes par trois leviers techniques distincts. La discrétisation exponentielle-trapézoïdale remplace l'heuristique de premier ordre de ses prédécesseurs par une approximation de second ordre, supprimant au passage les convolutions causales externes habituellement requises. Les états complexes (complex-valued SSMs), combinés à une équivalence théorique avec les RoPE (Rotary Positional Embeddings) appliqués aux projections B et C, permettent au modèle de résoudre des tâches de suivi d'état comme la parité binaire — là où Mamba-2 ne faisait pas mieux qu'une réponse aléatoire. Enfin, la formulation MIMO (Multi-Input Multi-Output) transforme la mise à jour d'état en une multiplication matricielle, multipliant les FLOPs de décodage par jusqu'à 4x par rapport à Mamba-2 à taille d'état équivalente, sans détériorer la latence réelle grâce à la superposition avec les I/O mémoire existants.
Sur le plan architectural, Mamba-3 adopte le layout style Llama, en alternance avec des blocs SwiGLU, et introduit une normalisation RMS sur les projections B et C — une symétrie directe avec le QKNorm des Transformers — ce qui stabilise l'entraînement et permet de supprimer la post-gate RMSNorm des versions précédentes. Ces travaux positionnent Mamba-3 comme une alternative sérieuse aux Transformers pour les scénarios où la latence de décodage est critique, avec des états deux fois plus petits à qualité de modélisation équivalente.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


