Aller au contenu principal
RechercheMarkTechPost6sem

Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO

Résumé IASource uniqueImpact UE
Source originale ↗·

Une équipe de chercheurs issus de Carnegie Mellon University, Princeton University, Together AI et Cartesia AI a présenté Mamba-3, une nouvelle architecture de modèle de langage conçue dès le départ pour maximiser l'efficacité à l'inférence. Là où les Transformers souffrent d'une complexité quadratique et de besoins mémoire croissants, Mamba-3 s'appuie sur le cadre des State Space Models (SSM) pour lever ces goulots d'étranglement, avec trois innovations méthodologiques majeures.

L'enjeu est de taille : à mesure que la puissance de calcul à l'inférence devient le principal levier de performance des LLM, les architectures doivent évoluer au-delà des seules métriques de qualité. Les déploiements à grande échelle se heurtent aux limites matérielles des GPU modernes — notamment le H100 — dont les phases de décodage restent très en dessous du régime compute-bound, avec une intensité arithmétique d'environ 2,5 opérations par octet pour les SSM classiques.

Mamba-3 répond à ces contraintes par trois leviers techniques distincts. La discrétisation exponentielle-trapézoïdale remplace l'heuristique de premier ordre de ses prédécesseurs par une approximation de second ordre, supprimant au passage les convolutions causales externes habituellement requises. Les états complexes (complex-valued SSMs), combinés à une équivalence théorique avec les RoPE (Rotary Positional Embeddings) appliqués aux projections B et C, permettent au modèle de résoudre des tâches de suivi d'état comme la parité binaire — là où Mamba-2 ne faisait pas mieux qu'une réponse aléatoire. Enfin, la formulation MIMO (Multi-Input Multi-Output) transforme la mise à jour d'état en une multiplication matricielle, multipliant les FLOPs de décodage par jusqu'à 4x par rapport à Mamba-2 à taille d'état équivalente, sans détériorer la latence réelle grâce à la superposition avec les I/O mémoire existants.

Sur le plan architectural, Mamba-3 adopte le layout style Llama, en alternance avec des blocs SwiGLU, et introduit une normalisation RMS sur les projections B et C — une symétrie directe avec le QKNorm des Transformers — ce qui stabilise l'entraînement et permet de supprimer la post-gate RMSNorm des versions précédentes. Ces travaux positionnent Mamba-3 comme une alternative sérieuse aux Transformers pour les scénarios où la latence de décodage est critique, avec des états deux fois plus petits à qualité de modélisation équivalente.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation
1MarkTechPost 

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation

NVIDIA a présenté PivotRL, un nouveau cadre d'entraînement pour les grands modèles de langage (LLM) conçu pour les tâches agentiques complexes comme l'ingénierie logicielle, la navigation web ou l'utilisation d'outils. Développé par des chercheurs de NVIDIA, PivotRL réduit le nombre de tours de simulation nécessaires d'un facteur 4 tout en maintenant une précision élevée. Le système repose sur deux mécanismes clés : le « Pivot Filtering », qui identifie les étapes d'entraînement les plus instructives, et les « Functional Rewards », qui évaluent les actions par équivalence fonctionnelle plutôt que par correspondance exacte de texte. Ce framework s'attaque à un problème central dans le domaine : les méthodes de fine-tuning supervisé (SFT) sont peu coûteuses mais généralisent mal hors de leur domaine d'entraînement, tandis que l'apprentissage par renforcement de bout en bout (E2E RL) offre une meilleure généralisation mais exige des ressources de calcul considérables. PivotRL cherche à combiner le meilleur des deux approches en opérant sur des trajectoires SFT existantes, concentrant le calcul uniquement sur les états d'entraînement qui fournissent le signal d'apprentissage le plus fort. L'entraînement post-déploiement des LLM pour des agents autonomes est devenu l'un des défis majeurs de l'IA en 2025-2026, à mesure que l'industrie cherche à déployer des systèmes capables d'exécuter des tâches longues et complexes de manière fiable et économique.

RecherchePaper
1 source
LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte
2Apple Machine Learning 

LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte

Une étude présentée au workshop "Memory for LLM-Based Agentic Systems" de la conférence ICLR 2025 s'attaque à une question fondamentale pour les petits modèles de langage (SLM) : que doivent-ils apprendre lors du préentraînement, et que doivent-ils déléguer à des sources externes ? Les chercheurs ont développé LaCy, un cadre théorique et expérimental qui questionne la fonction de perte standard utilisée pour entraîner ces modèles, en montrant qu'optimiser uniquement la vraisemblance des données n'est pas suffisant pour des SLM efficaces et fiables. Le problème est structurel : contrairement aux grands modèles comme GPT-4 ou Llama 3, les SLM disposent d'une capacité paramétrique limitée, ce qui les contraint à faire des choix sur les connaissances à mémoriser. Sans mécanisme adapté, ils génèrent des faits incorrects plutôt que d'admettre leur ignorance et de consulter une base de données ou un modèle plus puissant. LaCy propose de reformuler ce que le modèle "devrait" apprendre en tenant compte explicitement de la disponibilité de sources externes, comme des documents récupérés par RAG ou des API spécialisées. Ce travail s'inscrit dans la tendance croissante à déployer des agents IA embarqués sur des appareils à faible puissance, où les gros modèles ne peuvent pas tourner localement. Alors que des entreprises comme Google, Apple ou Mistral misent sur des SLM pour l'edge computing et les assistants embarqués, la question de la frontière entre mémoire paramétrique et mémoire externe devient stratégique. LaCy ouvre la voie à des entraînements plus ciblés, où le modèle apprend à savoir ce qu'il ne sait pas.

UEMistral, entreprise française en pointe sur les petits modèles pour l'edge computing, est directement concernée par les conclusions de LaCy sur l'optimisation de l'entraînement des SLM.

RecherchePaper
1 source
3Amazon Science 

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Une étude d'ablation menée par des chercheurs d'Amazon sur le modèle Nova 2.0 Lite identifie le module oproj comme le point d'insertion optimal pour les adaptateurs LoRA, offrant le meilleur compromis entre efficacité et précision lors du fine-tuning. LoRA permet d'affiner des LLMs en gelant les poids du modèle de base et en ajoutant de légères matrices dans des sous-couches spécifiques, réduisant ainsi les coûts GPU, la mémoire et la latence d'inférence. Plutôt que de cibler tous les modules (coûteux), cibler uniquement oproj — une transformation linéaire qui fusionne les représentations des têtes d'attention — préserve l'essentiel des gains de performance avec une efficacité significativement améliorée.

RecherchePaper
1 source
4InfoQ AI 

Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes

Mariia Bulycheva, ingénieure chez Zalando, a présenté comment la plateforme de mode européenne a migré son système de recommandations pour sa page d'accueil des architectures classiques de deep learning vers les réseaux de neurones sur graphes (GNN). L'approche consiste à convertir les journaux d'interactions des utilisateurs en graphes hétérogènes, où chaque noeud représente un utilisateur, un produit ou une session, et chaque arête encode un type de relation différent. L'entraînement repose sur un mécanisme dit de "passage de messages", où chaque noeud agrège progressivement les informations de ses voisins pour construire une représentation contextuelle enrichie. Cette évolution permet à Zalando de capturer des signaux comportementaux bien plus fins que les modèles séquentiels traditionnels : les GNN peuvent modéliser simultanément les affinités entre produits, les habitudes d'un utilisateur et les tendances collectives, ce qui améliore directement la pertinence des recommandations affichées dès l'arrivée sur la page. Pour une plateforme générant des milliards d'euros de chiffre d'affaires annuel, même une fraction de point de gain sur le taux de conversion représente un impact commercial significatif. Le déploiement a cependant révélé deux obstacles majeurs : le risque de fuite de données propre aux graphes, où les connexions entre noeuds peuvent involontairement exposer des informations futures lors de l'entraînement, et la latence à l'inférence, incompatible avec les exigences temps réel d'une page d'accueil. Zalando a résolu ce dernier point par une architecture hybride : les GNN génèrent des embeddings contextuels en amont, transmis ensuite à un modèle aval plus léger pour la décision finale, découplant ainsi la richesse de la représentation de la contrainte de rapidité.

UEZalando, acteur européen majeur de la mode en ligne, démontre une adoption industrielle des GNNs qui peut inspirer d'autres plateformes d'e-commerce européennes à moderniser leurs systèmes de recommandation.

RecherchePaper
1 source