Aller au contenu principal
TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B
RechercheMarkTechPost12sem· 2 min de lecture

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Source originale ↗·

Une équipe de chercheurs de FAIR (Meta), de l'Université Cornell et de Carnegie Mellon University vient de démontrer qu'un grand modèle de langage peut apprendre à raisonner en n'entraînant que 13 paramètres — soit 26 octets en précision bf16. Leur méthode, baptisée TinyLoRA, appliquée au modèle Qwen2.5-7B-Instruct, atteint 91,8 % de précision sur le benchmark mathématique GSM8K, dépassant même le modèle de base non affiné (88,2 %) et rivalisant avec un affinage complet sur l'ensemble des 7,6 milliards de paramètres.

Ce résultat bouscule un dogme implicite du domaine : la performance d'un modèle serait proportionnelle au volume de paramètres modifiés lors de l'affinage. TinyLoRA prouve que l'essentiel de l'adaptation peut être capturé dans un espace d'une compacité extrême, ce qui ouvre des perspectives importantes pour le déploiement sur des appareils contraints, la réduction des coûts d'affinage, et la compréhension théorique de la façon dont les LLM encodent de nouvelles capacités.

Sur le plan technique, TinyLoRA s'appuie sur LoRA-XS, une variante de la méthode d'adaptation à bas rang LoRA, en remplaçant les matrices entraînables par un vecteur de faible dimension projeté à travers un tenseur aléatoire fixe. Le facteur clé est le recours à l'apprentissage par renforcement — spécifiquement GRPO (Group Relative Policy Optimization) — plutôt qu'au Supervised Fine-Tuning (SFT). Les chercheurs rapportent que le SFT exige des mises à jour 100 à 1 000 fois plus volumineuses pour atteindre des performances équivalentes : son signal d'entraînement "dilue" l'information utile dans du bruit stylistique, là où le signal de récompense binaire du RL reste dense et ciblé. Côté architecture, un rang SVD figé de r=2 s'avère optimal, et le partage de paramètres par "tuilage" entre couches adjacentes surpasse le partage structuré par type de projection.

Sur des benchmarks plus exigeants comme MATH500 et AIME24, une mise à jour à 196 paramètres pour Qwen2.5-7B conserve 87 % du gain absolu d'un affinage complet sur six tests mathématiques difficiles. Les auteurs notent par ailleurs que les modèles Qwen-2.5 nécessitent environ 10 fois moins de paramètres que les modèles LLaMA-3 pour atteindre des performances comparables dans ce cadre — une disparité qui pointe vers des différences architecturales profondes dans la façon dont ces modèles organisent leur connaissance interne.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
1MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
2Amazon Science 

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Une étude d'ablation menée par des chercheurs d'Amazon sur le modèle Nova 2.0 Lite identifie le module oproj comme le point d'insertion optimal pour les adaptateurs LoRA, offrant le meilleur compromis entre efficacité et précision lors du fine-tuning. LoRA permet d'affiner des LLMs en gelant les poids du modèle de base et en ajoutant de légères matrices dans des sous-couches spécifiques, réduisant ainsi les coûts GPU, la mémoire et la latence d'inférence. Plutôt que de cibler tous les modules (coûteux), cibler uniquement oproj — une transformation linéaire qui fusionne les représentations des têtes d'attention — préserve l'essentiel des gains de performance avec une efficacité significativement améliorée.

RecherchePaper
1 source
MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres
3MarkTechPost 

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang. L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante. La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

RecherchePaper
1 source
Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir
4VentureBeat AI 

Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir

Des chercheurs du Mind Lab et de plusieurs universités ont publié une technique appelée delta-mem, conçue pour doter les agents d'intelligence artificielle d'une mémoire de travail persistante sans modifier les paramètres du modèle sous-jacent. Le principe : comprimer l'historique des interactions d'un agent en une matrice de taille fixe, appelée OSAM (Online State of Associative Memory), mise à jour dynamiquement au fil des échanges. Le module résultant n'ajoute que 0,12 % des paramètres du modèle de base, contre 76,40 % pour la solution concurrente la plus répandue, tout en surpassant cette dernière sur les benchmarks exigeants en mémoire. Lors de la génération, le système ne réinjecte pas de texte brut dans le contexte : l'état caché du modèle est projeté dans la matrice pour récupérer les informations passées, ce qui réduit la latence et évite de saturer la fenêtre de contexte. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, un assistant de code qui perd le fil d'une session de débogage, ou un agent d'analyse de données qui réingère les mêmes informations à chaque étape, génère des coûts en tokens, de la latence et des workflows fragiles. Les deux solutions habituelles, élargir la fenêtre de contexte ou multiplier les appels RAG, montrent leurs limites dès que les interactions s'étalent sur de longues séquences : le coût computationnel de l'attention croit de façon quadratique avec la longueur de la séquence, et les modèles souffrent de ce que les chercheurs appellent le "context rot", une dégradation effective de la mémorisation malgré des fenêtres théoriques d'un million de tokens. Delta-mem offre une troisième voie : une mémoire interne, compacte et continuellement mise à jour, sans dépendance à un module externe. Ce travail s'inscrit dans un débat plus large sur l'architecture des agents autonomes. Les approches existantes se répartissent en trois catégories : la mémoire textuelle, limitée par la taille de la fenêtre et sujette à la perte d'information ; le RAG, qui introduit de la latence et des problèmes d'alignement ; et les adaptateurs paramétriques, statiques après l'entraînement et incapables d'intégrer de nouvelles informations en temps réel. Delta-mem se positionne comme une quatrième voie, paramétrique mais dynamique, opérant à l'intérieur du modèle gelé. Jingdi Lei, co-auteur de l'article, cite des cas concrets : un assistant de code qui doit retenir les conventions d'un projet, les étapes de débogage récentes ou les préférences d'un développeur sur toute la durée d'un workflow ; un agent d'analyse qui doit maintenir des hypothèses et des observations intermédiaires sur plusieurs appels d'outils successifs. La technique reste pour l'instant au stade de la recherche, mais elle pointe vers une architecture d'agent où la mémoire de travail est un composant de première classe, aussi central que le modèle lui-même.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic