Aller au contenu principal
Parallax : attention locale linéaire paramétrée avec softmax et correction de covariance apprise
RechercheMarkTechPost5h

Parallax : attention locale linéaire paramétrée avec softmax et correction de covariance apprise

Résumé IASource uniqueImpact UE
Source originale ↗·

Une équipe de chercheurs de Northwestern University, Tilde Research et l'Université de Washington a présenté Parallax, une nouvelle architecture d'attention pour les grands modèles de langage qui cherche à dépasser les limites du mécanisme softmax utilisé sans changement majeur depuis 2017. Contrairement à la plupart des travaux récents qui tentent de remplacer entièrement l'attention softmax, Parallax adopte une stratégie différente : conserver softmax et lui adjoindre une branche de correction apprise. Concrètement, le mécanisme ajoute un terme correctif basé sur la covariance clé-valeur, calculé via une matrice de projection apprise notée WR. Lorsque cette matrice est nulle, Parallax se réduit exactement à de l'attention softmax classique, ce qui signifie qu'un checkpoint existant peut être converti par simple ajout de WR et fine-tuning.

L'enjeu principal est d'ordre théorique et pratique à la fois. Théoriquement, Parallax s'appuie sur le cadre de régression locale linéaire (LLA), qui interprète l'attention comme un estimateur statistique : les clés sont des points d'entraînement, les valeurs sont des labels, et la requête est le point de test. L'attention softmax correspond à un estimateur local constant (Nadaraya-Watson) ; LLA l'étend à une estimation linéaire locale, prouvée plus précise en termes d'erreur quadratique moyenne intégrée. Sur le plan matériel, Parallax exploite la structure de FlashAttention en ajoutant une seconde branche de scoring qui réutilise exactement le même flux clé-valeur, sans I/O supplémentaire. Le résultat est un doublement approximatif de l'intensité arithmétique, c'est-à-dire du ratio opérations flottantes sur trafic mémoire, poussant le calcul vers un régime davantage limité par le compute que par la mémoire. C'est précisément dans ce régime que les optimisations de kernels GPU sont les plus efficaces.

La présentation inclut un prototype de kernel de décodage en CuTeDSL sur les GPU NVIDIA Hopper, où les instructions matmul opèrent sur des tuiles d'au minimum 64 lignes alors qu'un pas de décodage n'en fournit qu'une seule : Parallax contourne cette contrainte en fusionnant les produits QK et RK dans les mêmes instructions que l'attention standard. Ce travail s'inscrit dans un contexte de recherche très actif autour de l'efficacité des Transformers, où la plupart des alternatives comme Mamba ou Linear Attention sacrifient la qualité pour gagner en vitesse. Parallax parie sur une voie complémentaire : ajouter délibérément du calcul, mais rendre ce calcul moins coûteux à exécuter sur le matériel moderne. Les chercheurs indiquent également une co-conception avec l'optimiseur Muon, ce qui suggère une intégration pensée pour le pré-entraînement à grande échelle plutôt que pour des ajustements marginaux en inférence.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta
1MarkTechPost 

NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta

NVIDIA AI a publié Gated DeltaNet-2, une nouvelle couche d'attention linéaire conçue pour résoudre un problème précis dans les modèles de langage à mémoire récurrente. Le modèle a été entraîné à 1,3 milliard de paramètres sur 100 milliards de tokens issus du jeu de données FineWeb-Edu. Selon les benchmarks présentés dans l'article technique, il surpasse ses concurrents directs : Mamba-2, Gated DeltaNet, KDA (Kimi Delta Attention) et Mamba-3. L'innovation centrale repose sur l'introduction de deux portes vectorielles indépendantes : une porte d'effacement par canal appliquée à l'axe des clés, et une porte d'écriture par canal appliquée à l'axe des valeurs. Les deux sont produites par des projections sigmoid de la représentation du token. Le code et l'article sont disponibles publiquement via le dépôt NVlabs sur GitHub, avec des kernels Triton fusionnés pour l'entraînement sur GPU Hopper. L'enjeu est fondamental pour la prochaine génération de modèles de langage efficaces. L'attention linéaire remplace le cache clé-valeur non borné de l'attention softmax classique par un état récurrent de taille fixe, ce qui ramène le coût de traitement des séquences à une complexité linéaire et la mémoire de décodage à une constante. Mais éditer cet état compressé sans brouiller les associations déjà mémorisées est précisément le goulet d'étranglement que les architectures précédentes n'avaient pas résolu proprement. Les modèles antérieurs utilisaient une seule valeur scalaire pour contrôler à la fois l'effacement de l'ancien contenu et l'écriture du nouveau, deux opérations qui agissent sur des axes différents de l'état matriciel. Gated DeltaNet-2 sépare ces deux décisions : chaque canal peut indépendamment choisir combien il efface et combien il écrit, ce qui augmente la capacité expressive du modèle sans alourdir l'architecture globale. Cette publication s'inscrit dans une compétition technique dense autour du remplacement ou de la complémentation de l'attention softmax. DeltaNet avait introduit la règle delta, qui effectue une mise à jour active de l'état en soustrayant la valeur actuellement associée à une clé donnée. Mamba-2 avait ajouté un mécanisme d'oubli global scalaire dépendant des données. KDA, développé par l'équipe de Kimi (Moonshot AI), avait affiné le côté oubli avec un vecteur par canal, mais laissait la partie écriture avec un scalaire unique. Gated DeltaNet-2 généralise ces deux travaux : les modèles KDA et Gated DeltaNet sont mathématiquement récupérables comme cas particuliers lorsque les portes se réduisent à des scalaires identiques. NVIDIA positionne ainsi cette architecture comme un surensemble propre de l'existant, avec une implémentation hybride qui combine blocs récurrents et structure Transformer standard, ouvrant la voie à des modèles longs contextes à la fois rapides à l'inférence et précis.

UEL'architecture étant publiée en open source avec des kernels Triton, les équipes de recherche françaises et européennes peuvent l'intégrer directement dans leurs travaux sur les modèles de langage à complexité linéaire.

💬 Deux portes au lieu d'un scalaire, ça change pas le monde mais ça ferme proprement un trou que tout le monde contournait. Effacer et écrire dans l'état récurrent avec la même valeur, c'était une limitation un peu honteuse qui traînait depuis DeltaNet. Open source, kernels Triton inclus, les labos qui bossent sur l'attention linéaire vont s'en emparer.

RecherchePaper
1 source
COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène
2arXiv cs.RO 

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène

Des chercheurs ont présenté COMPASS, un algorithme de localisation visuelle pour robots qui exploite les plans architecturaux comme référence spatiale. Là où les méthodes existantes se limitent à la géométrie des bâtiments, COMPASS extrait simultanément les informations sémantiques contenues dans ces plans, murs, fenêtres, ouvertures, pour estimer avec précision la position et l'orientation d'un robot équipé de deux caméras fisheye. L'algorithme construit un descripteur radial à cinq canaux, inspiré du "scan context" utilisé en LiDAR, en projetant 360 rayons autour d'une position et en encodant pour chacun : la distance normalisée, le type d'obstacle rencontré, le gradient de distance, la distance inverse, et la variance locale. Cette représentation compacte est générée à la fois depuis le plan et depuis les images caméra, afin de les comparer directement. L'intérêt concret de cette approche tient à sa frugalité : les plans de bâtiments sont des ressources universellement disponibles, contrairement aux cartes 3D denses ou aux nuages de points LiDAR qui nécessitent une infrastructure coûteuse. En associant un simple plan d'étage à des caméras fisheye grand angle, COMPASS ouvre la voie à une localisation précise dans des environnements intérieurs sans déploiement de capteurs spécialisés. Les applications visées sont nombreuses : robots de livraison, assistants en milieu hospitalier, drones d'inspection, ou systèmes de navigation pour personnes malvoyantes. Le projet en est encore au stade de preuve de concept, validée sur le dataset Hilti-Trimble SLAM Challenge 2026 : les auteurs ont démontré que les signatures visuelles extraites de la première image de chaque caméra correspondent bien aux descripteurs issus du plan, confirmant la faisabilité du matching cross-modal. La prochaine étape consiste à étendre la détection d'éléments structurels au-delà des seules fenêtres, à intégrer la fusion des deux caméras fisheye, et à tester la localisation en conditions réelles sur des trajectoires complètes, un défi technique majeur qui conditionnera l'utilité pratique de la méthode.

RecherchePaper
1 source
Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes
3MarkTechPost 

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes

Des chercheurs du laboratoire Nous Research ont publié le 12 mai 2026 une méthode baptisée Lighthouse Attention, conçue pour accélérer l'entraînement des grands modèles de langage sur de longues séquences de texte. Testée contre une base de référence cuDNN, elle atteint un gain de vitesse de 1,40 à 1,69 fois en temps réel d'horloge, tout en maintenant une perte d'entraînement finale équivalente ou inférieure. Le mécanisme repose sur un pipeline en quatre étapes : construction d'une pyramide multi-niveaux à partir des projections Q, K et V par pooling moyen, attribution de scores scalaires à chaque entrée via des normes ℓ₂ par tête d'attention, sélection des k entrées les plus pertinentes sur l'ensemble des niveaux de la pyramide, puis exécution du FlashAttention standard sur le sous-ensemble ainsi sélectionné. Toute la sélection s'opère en dehors du kernel d'attention, ce qui permet de réutiliser les implémentations optimisées existantes sans modification. L'enjeu central est économique et technique : l'attention standard scale quadratiquement en Θ(N²) avec la longueur de séquence N, ce qui rend l'entraînement sur de longs contextes extrêmement coûteux en calcul et en mémoire. FlashAttention avait résolu le problème mémoire via un découpage intelligent, mais le coût de calcul restait quadratique. Lighthouse s'attaque directement à ce calcul en réduisant le nombre de paires (Q, K) effectivement traitées, sans sacrifier la qualité du modèle produit. Contrairement aux méthodes d'attention sparse conçues pour l'inférence, Lighthouse s'évalue sur un critère plus exigeant : les poids issus de l'entraînement sparse doivent rester pleinement compatibles avec une inférence en attention dense classique. Ce critère est satisfait, ce qui en fait une méthode applicable directement au pré-entraînement de modèles de production. L'approche de Nous Research se distingue des travaux antérieurs comme NSA, HISA, DSA ou MoBA sur deux points structurels. D'abord, ces méthodes compressent asymétriquement : elles appliquent le pooling uniquement sur les clés et valeurs, laissant les requêtes à pleine résolution. Lighthouse applique le pooling de façon symétrique aux trois projections Q, K et V, produisant des triplets cohérents à chaque niveau de la pyramide. Ensuite, leurs logiques de sélection s'intègrent à l'intérieur même du kernel d'attention, ce qui empêche de réutiliser les kernels denses hautement optimisés pour les GPU modernes. Le top-K utilisé par Lighthouse est délibérément non différentiable, aucun estimateur straight-through, aucun Gumbel softmax, et les gradients ne traversent que les entrées Q, K, V sélectionnées, pas les indices de sélection. Un mécanisme de top-K stratifié par chunks évite en outre l'effondrement de l'attention sur un intervalle étroit, garantissant une couverture équilibrée sur toute la séquence. À mesure que la course aux contextes longs s'intensifie dans l'industrie, des méthodes comme Lighthouse pourraient devenir un composant standard du pré-entraînement.

💬 1,4× à 1,7× sur le pré-entraînement long contexte, c'est le genre de gain qu'on attendait depuis que l'attention quadratique commence vraiment à faire mal au budget. Ce que j'aime, c'est que tu entraînes sparse et tu sers en attention dense classique sans rien modifier à l'archi, donc c'est utilisable directement en prod. Nous Research n'est pas DeepMind, et pourtant ce papier est propre.

RecherchePaper
1 source
Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle
4arXiv cs.RO 

Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle

Des chercheurs ont publié sur arXiv une étude portant sur une nouvelle approche de localisation intérieure basée sur le champ magnétique et les réseaux de neurones convolutifs. L'équipe a développé deux architectures, MagNetS et MagNetXL, fondées sur un CNN dilated à 7 couches, entraîné pour prédire directement les coordonnées (x, y) d'un utilisateur à l'intérieur d'un bâtiment à partir de séquences de données magnétiques. Les expériences ont été conduites sur le jeu de données MagPie, couvrant trois bâtiments distincts, Loomis, Talbot et CSL, avec des trajectoires enregistrées en main libre. Le constat central : les modèles entraînés sur les trois axes bruts du magnétomètre (Mx, My, Mz) voient leur précision se dégrader dès qu'un appareil est tenu avec une orientation différente de celle utilisée lors de l'entraînement, avec des erreurs croissantes à partir de 0°, 5° et 6° selon le bâtiment. Pour contourner ce problème, les chercheurs ont remplacé les trois canaux bruts par deux features invariantes à la rotation : la norme du champ magnétique (Mn) et sa projection sur l'axe de gravité (Mg). Ce passage de 3D à 2D, bien que réduisant le volume d'information, améliore la robustesse sans recourir à aucune infrastructure supplémentaire. MagNetXL atteint ou dépasse l'état de l'art sur MagPie, tandis que MagNetS offre des performances comparables avec seulement un tiers des paramètres, ce qui le rend adapté au déploiement sur appareils mobiles. L'invariance à la rotation permet ainsi de cartographier et de se localiser sans avoir à aligner l'orientation du téléphone, ce qui représente un gain concret pour les applications grand public. La localisation intérieure reste un problème non résolu malgré des décennies de travaux, faute de GPS utilisable à l'intérieur. Les approches par empreintes magnétiques séduisent par leur absence de coût d'infrastructure, mais souffrent historiquement de leur sensibilité à la position du téléphone dans la main. Cette étude s'inscrit dans un effort plus large pour rendre ces systèmes utilisables en conditions réelles, où les utilisateurs ne tiennent pas leur appareil de façon constante. Les résultats ouvrent la voie à des applications concrètes : navigation dans les hôpitaux, centres commerciaux, aéroports ou entrepôts, sans déployer de balises Wi-Fi ou Bluetooth.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour