Aller au contenu principal
MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres
RechercheMarkTechPost4h· 2 min de lecture

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

Source originale ↗·

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang.

L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante.

La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard
1MarkTechPost 

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard

Un développeur indépendant nommé Kye Gomez a publié sur GitHub un projet open-source appelé OpenMythos, une reconstruction théorique de l'architecture supposée de Claude Mythos d'Anthropic, écrite entièrement en PyTorch. Anthropic n'ayant jamais publié de documentation technique sur Mythos, Gomez a travaillé à partir de la littérature académique existante pour formuler une hypothèse concrète et vérifiable. Le projet n'est ni un modèle fuité, ni un fine-tune, ni une distillation, c'est une conjecture rendue exécutable. L'architecture proposée repose sur ce que la recherche appelle les Recurrent-Depth Transformers (RDT), également appelés Looped Transformers. Contrairement à un transformer classique comme LLaMA ou GPT, où chaque couche possède ses propres poids indépendants, un RDT applique le même bloc de poids de façon itérative, jusqu'à T=16 fois par passe. OpenMythos structure cela en trois parties : un Prélude, un Bloc Récurrent et une Coda. Le Bloc Récurrent intègre une couche Mixture-of-Experts inspirée de DeepSeekMoE, avec sélection dynamique d'experts à chaque itération, ainsi que le mécanisme Multi-Latent Attention de DeepSeek-V2, qui compresse les tenseurs KV et réduit la mémoire nécessaire d'un facteur 10 à 20. Résultat : 770 millions de paramètres qui, selon l'auteur, rivalisent avec un transformer standard de 1,3 milliard. Ce qui distingue fondamentalement cette architecture est que le raisonnement se déroule entièrement dans un espace latent continu, sans émission de tokens intermédiaires entre les étapes de boucle. Des travaux académiques récents, notamment Saunshi et al. (2025) et le projet COCONUT (2024), montrent formellement que chaque itération d'un RDT équivaut fonctionnellement à une étape de chain-of-thought, mais dans l'espace des vecteurs réels plutôt que des tokens discrets. Cette distinction est capitale : le modèle peut encoder plusieurs alternatives en parallèle à chaque passe, là où le chain-of-thought classique force un chemin unique et séquentiel. En pratique, cela permettrait d'obtenir des capacités de raisonnement profondes avec nettement moins de paramètres stockés, la profondeur étant une fonction du nombre d'itérations à l'inférence, et non de la taille du modèle. OpenMythos s'inscrit dans une tendance croissante de reverse engineering public des grands modèles propriétaires. Anthropic, comme OpenAI, publie peu sur ses choix architecturaux, ce qui pousse la communauté à reconstruire ces systèmes par inférence à partir des brevets, des papiers cités et des comportements observés. Les RDT ne sont pas nouveaux, des travaux de Universal Transformers (Dehghani et al., 2018) aux recherches récentes sur les looped networks, mais leur application à l'échelle des modèles commerciaux reste peu documentée. Si l'hypothèse de Gomez s'avère correcte ou même partiellement juste, elle aurait des implications importantes sur la façon dont l'industrie envisage le rapport entre taille de modèle et capacité de raisonnement, ouvrant potentiellement la voie à des architectures plus efficaces accessibles à des acteurs disposant de moins de ressources computationnelles.

RecherchePaper
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
2MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel
3MarkTechPost 

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche — ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv. Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser — via des tokens explicites ` et ` — renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène. La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

UELes poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

RecherchePaper
1 source
Parallax : attention locale linéaire paramétrée avec softmax et correction de covariance apprise
4MarkTechPost 

Parallax : attention locale linéaire paramétrée avec softmax et correction de covariance apprise

Une équipe de chercheurs de Northwestern University, Tilde Research et l'Université de Washington a présenté Parallax, une nouvelle architecture d'attention pour les grands modèles de langage qui cherche à dépasser les limites du mécanisme softmax utilisé sans changement majeur depuis 2017. Contrairement à la plupart des travaux récents qui tentent de remplacer entièrement l'attention softmax, Parallax adopte une stratégie différente : conserver softmax et lui adjoindre une branche de correction apprise. Concrètement, le mécanisme ajoute un terme correctif basé sur la covariance clé-valeur, calculé via une matrice de projection apprise notée WR. Lorsque cette matrice est nulle, Parallax se réduit exactement à de l'attention softmax classique, ce qui signifie qu'un checkpoint existant peut être converti par simple ajout de WR et fine-tuning. L'enjeu principal est d'ordre théorique et pratique à la fois. Théoriquement, Parallax s'appuie sur le cadre de régression locale linéaire (LLA), qui interprète l'attention comme un estimateur statistique : les clés sont des points d'entraînement, les valeurs sont des labels, et la requête est le point de test. L'attention softmax correspond à un estimateur local constant (Nadaraya-Watson) ; LLA l'étend à une estimation linéaire locale, prouvée plus précise en termes d'erreur quadratique moyenne intégrée. Sur le plan matériel, Parallax exploite la structure de FlashAttention en ajoutant une seconde branche de scoring qui réutilise exactement le même flux clé-valeur, sans I/O supplémentaire. Le résultat est un doublement approximatif de l'intensité arithmétique, c'est-à-dire du ratio opérations flottantes sur trafic mémoire, poussant le calcul vers un régime davantage limité par le compute que par la mémoire. C'est précisément dans ce régime que les optimisations de kernels GPU sont les plus efficaces. La présentation inclut un prototype de kernel de décodage en CuTeDSL sur les GPU NVIDIA Hopper, où les instructions matmul opèrent sur des tuiles d'au minimum 64 lignes alors qu'un pas de décodage n'en fournit qu'une seule : Parallax contourne cette contrainte en fusionnant les produits QK et RK dans les mêmes instructions que l'attention standard. Ce travail s'inscrit dans un contexte de recherche très actif autour de l'efficacité des Transformers, où la plupart des alternatives comme Mamba ou Linear Attention sacrifient la qualité pour gagner en vitesse. Parallax parie sur une voie complémentaire : ajouter délibérément du calcul, mais rendre ce calcul moins coûteux à exécuter sur le matériel moderne. Les chercheurs indiquent également une co-conception avec l'optimiseur Muon, ce qui suggère une intégration pensée pour le pré-entraînement à grande échelle plutôt que pour des ajustements marginaux en inférence.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic