Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO
Mamba-3, développé par des chercheurs de CMU, Princeton, Together AI et Cartesia AI, est un modèle innovant qui aborde les contraintes liées à l'efficacité inference dans les Grandes Modèles de Langage (LLM). Il s'appuie sur le cadre des Modèles d'État Espace (SSM) et introduit trois mises à jour méthodologiques clés : la discrétisation exponentielle-trapézoidale, les mises à jour d'état complexes-valeurs et une formulation Multi-Input Multi-Output (MIMO). Ces améliorations permettent à Mamba-3 de fonctionner efficacement avec une taille d'état réduite de moitié par rapport aux précédents modèles, tout en optimisant l'efficacité matérielle pour le décodage.
Mamba-3, développé par des entités européennes impliquant des chercheurs de CMU, Princeton, Together AI et Cartesia AI, améliore l'efficacité des Grandes Modèles de Langage (LLM), bénéficiant potentiellement à des entreprises européennes comme SAP ou Airbus en optimisant les ressources matérielles pour le décodage grâce à ses innovations dans les Modèles d'État Espace.