Aller au contenu principal
Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes
RechercheMarkTechPost6sem· 2 min de lecture

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes

Source originale ↗·

Des chercheurs du laboratoire Nous Research ont publié le 12 mai 2026 une méthode baptisée Lighthouse Attention, conçue pour accélérer l'entraînement des grands modèles de langage sur de longues séquences de texte. Testée contre une base de référence cuDNN, elle atteint un gain de vitesse de 1,40 à 1,69 fois en temps réel d'horloge, tout en maintenant une perte d'entraînement finale équivalente ou inférieure. Le mécanisme repose sur un pipeline en quatre étapes : construction d'une pyramide multi-niveaux à partir des projections Q, K et V par pooling moyen, attribution de scores scalaires à chaque entrée via des normes ℓ₂ par tête d'attention, sélection des k entrées les plus pertinentes sur l'ensemble des niveaux de la pyramide, puis exécution du FlashAttention standard sur le sous-ensemble ainsi sélectionné. Toute la sélection s'opère en dehors du kernel d'attention, ce qui permet de réutiliser les implémentations optimisées existantes sans modification.

L'enjeu central est économique et technique : l'attention standard scale quadratiquement en Θ(N²) avec la longueur de séquence N, ce qui rend l'entraînement sur de longs contextes extrêmement coûteux en calcul et en mémoire. FlashAttention avait résolu le problème mémoire via un découpage intelligent, mais le coût de calcul restait quadratique. Lighthouse s'attaque directement à ce calcul en réduisant le nombre de paires (Q, K) effectivement traitées, sans sacrifier la qualité du modèle produit. Contrairement aux méthodes d'attention sparse conçues pour l'inférence, Lighthouse s'évalue sur un critère plus exigeant : les poids issus de l'entraînement sparse doivent rester pleinement compatibles avec une inférence en attention dense classique. Ce critère est satisfait, ce qui en fait une méthode applicable directement au pré-entraînement de modèles de production.

L'approche de Nous Research se distingue des travaux antérieurs comme NSA, HISA, DSA ou MoBA sur deux points structurels. D'abord, ces méthodes compressent asymétriquement : elles appliquent le pooling uniquement sur les clés et valeurs, laissant les requêtes à pleine résolution. Lighthouse applique le pooling de façon symétrique aux trois projections Q, K et V, produisant des triplets cohérents à chaque niveau de la pyramide. Ensuite, leurs logiques de sélection s'intègrent à l'intérieur même du kernel d'attention, ce qui empêche de réutiliser les kernels denses hautement optimisés pour les GPU modernes. Le top-K utilisé par Lighthouse est délibérément non différentiable, aucun estimateur straight-through, aucun Gumbel softmax, et les gradients ne traversent que les entrées Q, K, V sélectionnées, pas les indices de sélection. Un mécanisme de top-K stratifié par chunks évite en outre l'effondrement de l'attention sur un intervalle étroit, garantissant une couverture équilibrée sur toute la séquence. À mesure que la course aux contextes longs s'intensifie dans l'industrie, des méthodes comme Lighthouse pourraient devenir un composant standard du pré-entraînement.

💬 L'analyse de Mathieu

1,4× à 1,7× sur le pré-entraînement long contexte, c'est le genre de gain qu'on attendait depuis que l'attention quadratique commence vraiment à faire mal au budget. Ce que j'aime, c'est que tu entraînes sparse et tu sers en attention dense classique sans rien modifier à l'archi, donc c'est utilisable directement en prod. Nous Research n'est pas DeepMind, et pourtant ce papier est propre.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
1MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée
2VentureBeat AI 

IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée

Des chercheurs de l'Université Tsinghua et de Z.ai ont mis au point une technique appelée IndexCache, capable d'accélérer jusqu'à 1,82 fois le temps de génération du premier token et d'augmenter de 1,48 fois le débit de génération pour des contextes de 200 000 tokens. Concrètement, IndexCache supprime jusqu'à 75 % des calculs redondants dans les modèles d'attention sparse, et s'applique aux architectures utilisant DeepSeek Sparse Attention (DSA), notamment les familles de modèles DeepSeek et GLM. Des tests préliminaires ont déjà été conduits sur GLM-5, un modèle de 744 milliards de paramètres, avec des résultats probants en conditions de production. Cette optimisation répond à un problème fondamental des grands modèles de langage : le mécanisme d'auto-attention, qui calcule les relations entre chaque token et tous les précédents, voit sa complexité computationnelle croître de façon quadratique avec la longueur du contexte. L'attention sparse — dont DSA est une implémentation efficace introduite avec DeepSeek-V3.2 — résout en partie ce problème en ne traitant qu'un sous-ensemble de tokens pertinents, réduisant la complexité de quadratique à linéaire. Mais les chercheurs ont identifié un goulot d'étranglement résiduel : le module d'indexation léger présent à chaque couche du modèle, chargé de sélectionner ces tokens importants, restait lui-même quadratique, ralentissant considérablement la phase de préfill lors du traitement initial du prompt. IndexCache s'attaque précisément à ce verrou en exploitant une propriété empirique : les couches adjacentes du transformer sélectionnent entre 70 % et 100 % des mêmes tokens. Le système désigne donc un petit nombre de couches "complètes" qui calculent et mettent en cache les indices de tokens, tandis que les couches "partagées" réutilisent simplement ces indices sans recalcul. Contrairement aux techniques classiques de compression du KV cache qui visent à réduire l'empreinte mémoire, IndexCache attaque directement le coût computationnel. L'enjeu est considérable pour les entreprises qui déploient des modèles à grande échelle. Le traitement de longs contextes — documents volumineux, workflows agentiques multi-étapes, raisonnements en chaîne de pensée étendue — représente aujourd'hui l'un des principaux freins économiques à l'adoption des LLM en production, où chaque milliseconde et chaque token coûtent. La course à l'efficacité de l'inférence s'est intensifiée ces derniers mois, avec des approches concurrentes comme la distillation de modèles, la quantification ou la compression du KV cache. IndexCache se positionne comme une technique orthogonale et complémentaire, exploitable sans modification de l'architecture de base. Avec DeepSeek déjà en pointe sur l'optimisation des coûts d'inférence et Z.ai directement impliqué dans ces travaux, la technique a de bonnes chances d'être intégrée rapidement dans les prochaines versions des modèles GLM et DeepSeek, élargissant la fenêtre de contexte praticable sans explosion des coûts.

UELes entreprises et laboratoires européens déployant des modèles DeepSeek ou GLM pourraient bénéficier de gains d'efficacité substantiels sur les inférences longues, réduisant les coûts opérationnels sans modification d'architecture.

RecherchePaper
1 source
La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision
3VentureBeat AI 

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

Une équipe de chercheurs issue de six institutions américaines, NYU, Columbia, Princeton, l'Université du Maryland, Harvard et le Lawrence Livermore National Laboratory, a publié cette semaine un article présentant les Latent Context Language Models (LCLMs), une nouvelle famille de modèles encodeur-décodeur capables de compresser le contexte d'entrée avant qu'il n'atteigne le décodeur. Résultat : une réduction du contexte jusqu'à 16 fois, avec des sorties générées 8,8 fois plus rapidement que les méthodes actuelles de référence sur le benchmark RULER. À un taux de compression de 4x, la précision atteint 91,76 % contre 94,41 % sans compression, soit moins de 3 points de perte pour diviser la taille du contexte par quatre. À 16x, où 93,75 % des tokens d'entrée sont supprimés, la précision descend à 75,06 %, mais surpasse encore toutes les méthodes de compression KV cache testées au même ratio. L'architecture repose sur un encodeur de 0,6 milliard de paramètres couplé à un décodeur de 4 milliards, entraîné sur plus de 350 milliards de tokens. Les modèles sont disponibles en open source sur HuggingFace. Ce travail s'attaque à un goulot d'étranglement croissant dans les systèmes d'IA en production : plus un agent fonctionne longtemps, plus il accumule de tokens issus de documents récupérés, de traces de raisonnement et d'historique de conversation, et plus la mémoire et le calcul nécessaires explosent. Contrairement aux méthodes de compression KV cache dominantes, qui chargent quand même le cache complet avant d'en supprimer des entrées, les LCLMs compriment la séquence de tokens en amont, ce qui réduit directement la charge côté décodeur. « Notre objectif était d'entraîner des modèles de bout en bout capables de gérer des contextes très longs de manière efficace et précise. Si vous y parvenez, tout devient moins cher et plus rapide », explique Micah Goldblum, co-responsable du projet et chercheur à Columbia. Les gains se confirment aussi sur des entrées courtes : sur GSM8K, un benchmark de problèmes mathématiques, les LCLMs surpassent toutes les autres méthodes testées, quel que soit le taux de compression. La compression de contexte n'est pas un problème nouveau, mais la plupart des solutions existantes souffrent d'un compromis rédhibitoire en production : soit elles dégradent trop la précision, soit les économies de mémoire ne se traduisent pas en gains de vitesse réels dans les infrastructures de déploiement standard. Les LCLMs sont conçus pour s'intégrer directement dans une architecture agentique existante, il suffit de faire passer les documents récupérés par le compresseur avant de les injecter dans le contexte du modèle. L'équipe a également démontré comment construire des agents capables de décompresser sélectivement les passages pertinents, à la manière d'un lecteur qui parcourt rapidement un texte avant de zoomer sur les détails utiles. Avec la montée en puissance des systèmes d'agents longs et des pipelines RAG à grande échelle, ce type de compression en amont pourrait devenir une brique technique incontournable pour maîtriser les coûts d'inférence.

UELes startups et entreprises européennes développant des agents IA ou des pipelines RAG pourraient bénéficier indirectement de cette technique open source pour réduire leurs coûts d'inférence sans impact spécifique à la France ou à l'UE.

💬 Moins de 3 points de précision pour diviser le contexte par 4, c'est le compromis qu'on attendait pour que ça tienne en prod. Ce qui tranche avec les approches KV cache, c'est que la compression se fait en amont du décodeur : les gains se traduisent en vitesse réelle, pas juste en mémoire sur le papier. Si tu fais du RAG ou de l'agentique, ça vaut le détour sur HuggingFace cette semaine.

RecherchePaper
1 source
Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b
4MarkTechPost 

Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign, de l'UC Berkeley et de la startup Chroma ont publié Harness-1, un agent de recherche documentaire de 20 milliards de paramètres construit sur le modèle gpt-oss-20b et entraîné par apprentissage par renforcement. Sa particularité : contrairement aux agents de recherche classiques où le modèle gère simultanément les décisions de recherche et la mémoire de session, Harness-1 opère à l'intérieur d'un "harnais" logiciel à état qui prend en charge toute la comptabilité interne. Le modèle ne répond pas directement aux questions : il produit un ensemble classé de documents pertinents pour un modèle de réponse en aval. Les poids et le code source sont publiés en accès libre. L'entraînement supervisé a utilisé 899 trajectoires générées par GPT-5.4, avec affinage par renforcement via la méthode CISPO, sur des requêtes financières issues de la SEC, avec une limite de 40 tours par épisode, sur un cluster de calcul baptisé Tinker. Le coeur de l'approche repose sur un principe que les chercheurs appellent "décharge cognitive à état" : au lieu de demander au modèle de tout mémoriser et décider en même temps, le harnais maintient un pool de documents compressés et dédupliqués, un ensemble curé de 30 documents maximum tagués par importance (veryhigh, high, fair, low), un graphe de preuves et un extracteur d'entités nommées. Le modèle dispose de huit outils distincts (fanoutsearch, searchcorpus, grepcorpus, readdocument, reviewdocs, curate, verify, endsearch) et émet une action structurée par tour, que le harnais exécute avant de rendre la prochaine observation. Cette séparation des responsabilités permet à l'apprentissage par renforcement de se concentrer uniquement sur les décisions sémantiques. Un bonus de diversité d'outils s'est révélé critique : sans lui, l'agent s'effondrait en boucles de recherches répétitives et le rappel curé plafonnait à 0,53 ; avec le bonus, il atteint 0,60. Harness-1 s'inscrit dans une tendance de fond visant à rendre les agents de recherche plus fiables sur des tâches complexes et multi-sources. Évalué sur huit benchmarks couvrant le web, la finance, les brevets et le raisonnement multi-saut, il affiche un rappel curé moyen de 0,730, un résultat notable pour un modèle open source de cette taille face à des systèmes propriétaires bien plus grands. L'enjeu est significatif car les architectures RAG (retrieval-augmented generation) sont au coeur de nombreux systèmes d'IA en production, notamment en entreprise. La publication ouverte des poids et du harnais ouvre la voie à des adaptations dans des domaines où la précision documentaire est critique, comme le droit, la médecine ou la veille scientifique. Les prochaines étapes naturelles incluent l'extension à d'autres corpus et l'intégration à des pipelines de réponse complets.

UELes entreprises et institutions européennes travaillant sur des systèmes RAG en droit, médecine ou veille scientifique peuvent s'appuyer sur les poids ouverts de Harness-1 pour des adaptations sectorielles à faible coût.

💬 Le principe de "décharge cognitive à état" m'a vraiment accroché : au lieu de demander au modèle de tout jongler simultanément, on externalise la comptabilité dans un harnais, et le RL peut enfin se concentrer sur les décisions qui comptent. Ce qui le prouve, c'est le bonus de diversité d'outils, sans lequel l'agent s'effondre en boucles répétitives et le rappel plafonne à 0,53 au lieu de 0,60. Les poids sont ouverts et les benchmarks sont solides : pour du RAG en médecine ou en droit, ça vaut le détour.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic