Aller au contenu principal
Les LLM rendus plus rapides sans sacrifier la précision
RechercheAmazon Science6sem· 2 min de lecture

Les LLM rendus plus rapides sans sacrifier la précision

Source originale ↗·

Des chercheurs ont présenté lors de la conférence internationale ICLR (International Conference on Learning Representations) un nouveau cadre mathématique permettant d'optimiser à la fois la vitesse d'inférence et la précision des grands modèles de langage. Leur constat de départ est frappant : deux modèles ayant exactement le même nombre de paramètres, entraînés sur les mêmes données et atteignant la même précision, peuvent afficher des différences de débit allant jusqu'à 40 % selon leurs choix architecturaux. Ces choix portent sur trois variables concrètes : la taille des représentations internes du modèle (le "hidden size"), le ratio de paramètres alloués aux couches MLP par rapport aux couches d'attention, et une technique appelée "grouped-query attention" (GQA) dans laquelle plusieurs têtes d'attention partagent des matrices clé-valeur. En jouant sur ces leviers sous un budget de paramètres fixe, il est possible de réduire significativement les calculs lors de la génération de texte et d'alléger le cache clé-valeur, principal goulot d'étranglement en mémoire.

L'enjeu est considérable pour toute l'industrie du logiciel en temps réel. Les applications web basées sur l'IA, chatbots, assistants, moteurs de recherche augmentés, ne peuvent pas se permettre des latences élevées même si le modèle sous-jacent est plus précis. Jusqu'ici, les équipes d'ingénierie devaient choisir empiriquement leur architecture, sans loi formelle pour guider ces arbitrages. Ce nouveau cadre leur offre une boussole quantitative : pour un budget computationnel donné, il devient possible de prédire quelle configuration architecturale maximisera le débit sans sacrifier la qualité des réponses.

Ce travail s'inscrit dans la lignée directe de la "loi Chinchilla", publiée par Google DeepMind en 2022, qui avait établi comment ajuster conjointement la taille d'un modèle et le volume de données d'entraînement pour minimiser la perte à budget fixe. Cette loi, fondatrice dans la discipline, ne disait cependant rien des choix internes d'architecture. Les auteurs comblent ce manque en intégrant ces variables structurelles dans l'équation de scaling, transformant l'architecture en un paramètre de premier rang au même titre que le nombre de paramètres ou les tokens d'entraînement. À mesure que les modèles continuent de grossir et que les coûts d'inférence grimpent, ce type de cadre pourrait devenir un outil de référence pour les équipes qui cherchent à déployer des LLMs performants sans exploser leur facture de calcul.

Impact France/UE

Les laboratoires européens comme Mistral AI pourraient directement appliquer ce cadre pour optimiser leurs choix architecturaux et réduire leurs coûts d'inférence sans sacrifier la précision.

💬 L'analyse de Mathieu

C'est le chaînon manquant après Chinchilla. On savait calibrer la taille du modèle et le volume de données, mais les choix architecturaux restaient du bricolage guidé par l'instinct, sans cadre formel pour trancher. 40% de débit en plus sur le même budget de paramètres, c'est le genre de gain qui change vraiment la facture à l'échelle, et Mistral et consorts seraient bien avisés de s'y plonger.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les traces de raisonnement variées améliorent la prise de décision des LLM
1Amazon Science 

Les traces de raisonnement variées améliorent la prise de décision des LLM

Des chercheurs ont présenté à l'ICLR 2025 une nouvelle méthode d'entraînement des grands modèles de langage (LLM) qui améliore significativement leurs capacités de raisonnement. Baptisée SSFT (Set-Supervised Fine Tuning), cette approche consiste à entraîner un modèle sur plusieurs chemins de raisonnement distincts pour un même problème, plutôt que sur une seule trace humaine vérifiée comme c'est l'usage avec le fine-tuning supervisé classique. Pour guider le modèle, les chercheurs introduisent des "tokens de branchement global", des marqueurs spéciaux insérés pendant la phase d'entraînement post-initial, chacun activant un mode de raisonnement différent. En combinant SSFT avec une couche d'apprentissage par renforcement qu'ils nomment GFPO (Global Forking Policy Optimization), ils obtiennent des gains de 5 à 7 % en précision sur les benchmarks standards, mesurés en pass@1, c'est-à-dire la probabilité qu'une réponse unique générée soit correcte. L'enjeu est de taille : la capacité de raisonnement est devenue le principal critère de différenciation entre les LLM de pointe. Or, la méthode d'entraînement dominante, fournir au modèle une seule trace de raisonnement par exemple, plafonne naturellement ce que le modèle peut apprendre. Le problème identifié avec les approches naïves de raisonnement parallèle est le "mode collapse" : quand plusieurs stratégies sont possibles, le modèle finit par toutes les converger vers le même comportement. SSFT résout cela via un appariement bipartite qui associe chaque trace à un token de contrôle spécifique, forçant le modèle à maintenir des stratégies réellement distinctes. Le GFPO ajoute ensuite une logique de sélection : le modèle apprend non seulement plusieurs modes de raisonnement, mais aussi lequel employer selon le contexte du problème posé. Cette capacité de méta-décision, absente du fine-tuning supervisé, est précisément ce qui génère les gains observés. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser les limites du scaling en données brutes, en explorant comment structurer l'entraînement pour maximiser la diversité et la qualité du raisonnement. Des techniques comme la self-consistency, agréger plusieurs chemins de raisonnement pour voter la meilleure réponse, ont montré que la diversité de raisonnement améliore la robustesse des LLM à l'évaluation. La question logique était donc de savoir si cette diversité pouvait être intégrée dès l'entraînement. Les traces multiples nécessaires à SSFT peuvent être obtenues de plusieurs façons : en interrogeant plusieurs modèles enseignants, en échantillonnant un même modèle avec des températures variées, ou en agrégeant des solutions de sources hétérogènes. Cette flexibilité rend la méthode applicable sans infrastructure propriétaire, ce qui devrait faciliter son adoption dans la communauté de recherche et potentiellement chez les acteurs industriels cherchant à améliorer leurs modèles sans augmenter davantage la taille des données d'entraînement.

RecherchePaper
1 source
La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision
2VentureBeat AI 

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

Une équipe de chercheurs issue de six institutions américaines, NYU, Columbia, Princeton, l'Université du Maryland, Harvard et le Lawrence Livermore National Laboratory, a publié cette semaine un article présentant les Latent Context Language Models (LCLMs), une nouvelle famille de modèles encodeur-décodeur capables de compresser le contexte d'entrée avant qu'il n'atteigne le décodeur. Résultat : une réduction du contexte jusqu'à 16 fois, avec des sorties générées 8,8 fois plus rapidement que les méthodes actuelles de référence sur le benchmark RULER. À un taux de compression de 4x, la précision atteint 91,76 % contre 94,41 % sans compression, soit moins de 3 points de perte pour diviser la taille du contexte par quatre. À 16x, où 93,75 % des tokens d'entrée sont supprimés, la précision descend à 75,06 %, mais surpasse encore toutes les méthodes de compression KV cache testées au même ratio. L'architecture repose sur un encodeur de 0,6 milliard de paramètres couplé à un décodeur de 4 milliards, entraîné sur plus de 350 milliards de tokens. Les modèles sont disponibles en open source sur HuggingFace. Ce travail s'attaque à un goulot d'étranglement croissant dans les systèmes d'IA en production : plus un agent fonctionne longtemps, plus il accumule de tokens issus de documents récupérés, de traces de raisonnement et d'historique de conversation, et plus la mémoire et le calcul nécessaires explosent. Contrairement aux méthodes de compression KV cache dominantes, qui chargent quand même le cache complet avant d'en supprimer des entrées, les LCLMs compriment la séquence de tokens en amont, ce qui réduit directement la charge côté décodeur. « Notre objectif était d'entraîner des modèles de bout en bout capables de gérer des contextes très longs de manière efficace et précise. Si vous y parvenez, tout devient moins cher et plus rapide », explique Micah Goldblum, co-responsable du projet et chercheur à Columbia. Les gains se confirment aussi sur des entrées courtes : sur GSM8K, un benchmark de problèmes mathématiques, les LCLMs surpassent toutes les autres méthodes testées, quel que soit le taux de compression. La compression de contexte n'est pas un problème nouveau, mais la plupart des solutions existantes souffrent d'un compromis rédhibitoire en production : soit elles dégradent trop la précision, soit les économies de mémoire ne se traduisent pas en gains de vitesse réels dans les infrastructures de déploiement standard. Les LCLMs sont conçus pour s'intégrer directement dans une architecture agentique existante, il suffit de faire passer les documents récupérés par le compresseur avant de les injecter dans le contexte du modèle. L'équipe a également démontré comment construire des agents capables de décompresser sélectivement les passages pertinents, à la manière d'un lecteur qui parcourt rapidement un texte avant de zoomer sur les détails utiles. Avec la montée en puissance des systèmes d'agents longs et des pipelines RAG à grande échelle, ce type de compression en amont pourrait devenir une brique technique incontournable pour maîtriser les coûts d'inférence.

UELes startups et entreprises européennes développant des agents IA ou des pipelines RAG pourraient bénéficier indirectement de cette technique open source pour réduire leurs coûts d'inférence sans impact spécifique à la France ou à l'UE.

💬 Moins de 3 points de précision pour diviser le contexte par 4, c'est le compromis qu'on attendait pour que ça tienne en prod. Ce qui tranche avec les approches KV cache, c'est que la compression se fait en amont du décodeur : les gains se traduisent en vitesse réelle, pas juste en mémoire sur le papier. Si tu fais du RAG ou de l'agentique, ça vaut le détour sur HuggingFace cette semaine.

RecherchePaper
1 source
Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas
3VentureBeat AI 

Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas

Des chercheurs de Meta ont publié une technique de prompting structuré baptisée « raisonnement semi-formel », conçue pour améliorer significativement la capacité des grands modèles de langage à analyser du code sans l'exécuter. Dans leurs expériences, cette approche a permis d'atteindre jusqu'à 93 % de précision sur certaines tâches d'analyse de code, contre des performances bien inférieures avec les méthodes classiques. Concrètement, la technique oblige l'agent IA à remplir un « certificat logique » structuré : avant de répondre, il doit énoncer explicitement ses prémisses, tracer des chemins d'exécution concrets fonction par fonction, et formuler une conclusion basée uniquement sur des preuves vérifiables tirées du code source. L'agent ne peut plus se contenter de deviner le comportement d'une fonction à partir de son nom — il doit réellement suivre les appels et les flux de données. Pour l'industrie du développement logiciel, l'enjeu est considérable. Déployer des agents IA à l'échelle d'un dépôt entier — pour détecter des bugs, vérifier des patches ou conduire des revues de code — exige aujourd'hui de créer des environnements d'exécution isolés pour chaque projet, une infrastructure coûteuse et lourde à maintenir. Le raisonnement semi-formel contourne ce problème en permettant une analyse sémantique fiable sans jamais exécuter le code. Pour les équipes d'ingénierie qui utilisent l'IA dans leurs workflows CI/CD ou leurs processus de revue, cela représente une réduction drastique des coûts d'infrastructure tout en maintenant — voire en améliorant — la fiabilité des résultats. La technique réduit également les hallucinations, un problème chronique des LLM confrontés à du code complexe multi-fichiers. Le problème que Meta cherche à résoudre n'est pas nouveau. Deux approches dominent actuellement le domaine : les évaluateurs LLM non structurés, rapides mais sujets aux affirmations non fondées, et la vérification formelle mathématique (via des langages comme Lean ou Coq), rigoureuse mais totalement impraticable sur des bases de code d'entreprise mêlant dizaines de frameworks et de langages. Le raisonnement semi-formel se positionne délibérément entre ces deux extrêmes — plus rigoureux que le prompting libre, mais sans exiger la traduction du code en logique mathématique. Meta a évalué la technique sur trois catégories de tâches : vérification d'équivalence de patches, localisation de fautes, et questions-réponses sur des bases de code. Les résultats suggèrent une approche potentiellement généralisable à de nombreux domaines de l'ingénierie logicielle automatisée, à condition que les modèles soient suffisamment capables pour respecter les contraintes des templates structurés.

RecherchePaper
1 source
4InfoQ AI 

La compression TurboQuant de Google pourrait accélérer l'inférence sans perte de précision sur du matériel moins puissant

Google Research a dévoilé TurboQuant, un nouvel algorithme de quantification conçu pour compresser les caches Key-Value (KV) des grands modèles de langage jusqu'à six fois leur taille originale. Cette technique permet d'atteindre une compression à 3,5 bits avec une perte de précision quasi nulle, et sans nécessiter de réentraînement du modèle. Les premiers benchmarks communautaires confirment des gains d'efficacité substantiels, permettant aux développeurs de faire tourner des fenêtres de contexte très larges sur du matériel bien moins puissant qu'auparavant. L'enjeu est considérable : le cache KV est l'un des principaux goulots d'étranglement en mémoire lors de l'inférence de LLM, surtout lorsque les contextes atteignent des centaines de milliers de tokens. En réduisant l'empreinte mémoire de ces caches par un facteur pouvant atteindre 6x, TurboQuant ouvre la voie à des déploiements sur des GPU grand public ou des serveurs moins coûteux, ce qui représente une réduction directe des coûts d'inférence pour les entreprises et les développeurs indépendants. La compression des caches KV est un domaine de recherche actif, avec des travaux concurrents comme KVQuant ou StreamingLLM déjà publiés ces dernières années. L'originalité de TurboQuant réside dans sa capacité à atteindre ce niveau de compression sans phase de fine-tuning, ce qui facilite son intégration dans des pipelines existants. Google Research n'a pas encore précisé de calendrier de disponibilité dans ses produits, mais cette publication s'inscrit dans la course plus large à réduire le coût computationnel des modèles toujours plus grands comme Gemini.

UELes développeurs et entreprises européens pourraient bénéficier indirectement d'une réduction des coûts d'inférence LLM en déployant des modèles à large contexte sur du matériel grand public ou des serveurs moins coûteux.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic