RechercheMarkTechPost6sem

L'attention paginée dans les grands modèles de langage

Résumé IASource uniqueImpact UE

La gestion de la mémoire GPU constitue aujourd'hui le principal goulot d'étranglement dans le déploiement des grands modèles de langage à grande échelle. L'attention paginée (Paged Attention) apporte une réponse concrète à ce problème en s'inspirant du mécanisme de mémoire virtuelle des systèmes d'exploitation, permettant de multiplier significativement le nombre de requêtes traitées simultanément sans augmenter le parc matériel.

L'enjeu est considérable pour les opérateurs d'infrastructure IA. Avec l'approche classique, chaque requête se voit attribuer un bloc de mémoire fixe dimensionné au pire cas — la longueur maximale de séquence — même si la réponse générée est bien plus courte. Ce gaspillage structurel plafonne la concurrence bien avant que le GPU soit saturé computationnellement, forçant les équipes à surprovisioner le matériel ou à limiter arbitrairement le nombre d'utilisateurs simultanés.

Les chiffres illustrent l'ampleur du problème : avec un modèle de type GPT à 32 couches, 32 têtes d'attention et une dimension de 128 par tête stockée en fp16, chaque token du cache KV représente 524 288 octets (512 Ko). Pour une séquence maximale de 2 048 tokens, chaque requête pré-alloue 1 024 Mo de VRAM — mais n'en utilise en moyenne que 250 Mo pour une réponse typique de 500 tokens, soit un taux d'utilisation de seulement 24,4 %. Sur 100 utilisateurs simultanés, ce sont 75 Go de mémoire GPU immobilisés inutilement. L'attention paginée résout cela en découpant le cache KV en blocs de 16 tokens alloués à la demande, et en permettant le partage de préfixes identiques entre requêtes via un mécanisme de Copy-on-Write.

Cette approche, popularisée par le moteur d'inférence vLLM, représente aujourd'hui une brique fondamentale pour tout système de production sérieux. Les gains en débit sont substantiels dès les charges modérées — l'article mesure l'écart d'utilisation mémoire sur des batchs de 10 à 200 requêtes simultanées — et permettent de différer ou d'éviter des investissements matériels coûteux pour les équipes qui déploient des LLMs à l'échelle.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1OpenAI Blog

Amélioration de la hiérarchie d'instructions dans les grands modèles de langage de pointe

IH-Challenge est un dispositif d'entraînement qui apprend aux grands modèles de langage à prioriser les instructions de confiance selon une hiérarchie définie. Cette approche améliore la capacité des modèles à être guidés vers des comportements sûrs et renforce leur résistance aux attaques par injection de prompt. Les résultats montrent des gains significatifs en matière de sécurité et de contrôlabilité des LLMs.

UECette recherche sur la sécurité et la contrôlabilité des LLMs pourrait bénéficier aux développeurs européens comme Mistral AI dans leur effort de conformité avec l'AI Act de l'UE.

RecherchePaper

1 source

2Apple Machine Learning

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper

1 source

3Apple Machine Learning

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper

1 source

4Microsoft Research

AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques

Des chercheurs de Microsoft Research ont publié AutoAdapt, un cadre automatisé destiné à adapter les grands modèles de langage (LLM) à des domaines spécialisés à forts enjeux, comme le droit, la médecine ou la gestion d'incidents cloud. Présenté dans un article intitulé "AutoAdapt: An Automated Domain Adaptation Framework for Large Language Models", le système prend en entrée un objectif défini en langage naturel, des données de domaine et des contraintes pratiques (latence, matériel, budget, confidentialité), puis construit automatiquement un pipeline d'adaptation complet et reproductible. Pour y parvenir, AutoAdapt s'appuie sur trois composants : un graphe de configuration appelé Adaptation Configuration Graph (ACG) qui cartographie l'espace des possibles, un agent planificateur qui sélectionne et séquence les bonnes étapes, et une boucle d'optimisation budgétaire nommée AutoRefine qui affine le résultat dans les limites imposées. L'enjeu est considérable pour les équipes qui déploient des LLM en production. Aujourd'hui, spécialiser un modèle généraliste implique de choisir manuellement entre des approches comme la génération augmentée par récupération (RAG), le fine-tuning supervisé ou des méthodes à efficacité paramétrique comme LoRA, puis d'ajuster des dizaines d'hyperparamètres dans un espace de décision vaste et peu lisible. Ce processus prend des semaines, sans garantie de résultat reproductible. Pour une équipe qui gère une panne critique, un modèle qui dérive de ses exigences de domaine n'est tout simplement pas une option. AutoAdapt transforme ce tâtonnement coûteux en un pipeline exécutable en une fraction du temps, rendant les LLM fiables et prévisibles dans des contextes où les erreurs ont des conséquences réelles. Cette publication s'inscrit dans une tendance de fond qui vise à industrialiser le déploiement des LLM, au-delà de la simple performance sur des benchmarks génériques. Les entreprises qui adoptent ces modèles dans des secteurs régulés ou techniques se heurtent systématiquement au même mur : la spécialisation est longue, chère et fragile. Microsoft Research, qui présente ce travail dans le cadre de son Microsoft Research Forum, positionne AutoAdapt comme une réponse structurée à ce goulot d'étranglement. Le système ouvre la voie à une standardisation des pratiques d'adaptation, là où chaque équipe réinventait jusqu'ici sa propre méthode. La prochaine étape logique sera de voir si ce cadre peut être intégré directement dans des plateformes cloud comme Azure AI Studio, ce qui accélérerait son adoption à grande échelle.

UELes entreprises européennes déployant des LLM dans des secteurs réglementés (santé, droit, finance) pourraient réduire significativement leurs coûts et délais de spécialisation grâce à ce type de framework d'adaptation automatisé.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour