
L'attention paginée dans les grands modèles de langage
La gestion de la mémoire GPU constitue aujourd'hui le principal goulot d'étranglement dans le déploiement des grands modèles de langage à grande échelle. L'attention paginée (Paged Attention) apporte une réponse concrète à ce problème en s'inspirant du mécanisme de mémoire virtuelle des systèmes d'exploitation, permettant de multiplier significativement le nombre de requêtes traitées simultanément sans augmenter le parc matériel.
L'enjeu est considérable pour les opérateurs d'infrastructure IA. Avec l'approche classique, chaque requête se voit attribuer un bloc de mémoire fixe dimensionné au pire cas — la longueur maximale de séquence — même si la réponse générée est bien plus courte. Ce gaspillage structurel plafonne la concurrence bien avant que le GPU soit saturé computationnellement, forçant les équipes à surprovisioner le matériel ou à limiter arbitrairement le nombre d'utilisateurs simultanés.
Les chiffres illustrent l'ampleur du problème : avec un modèle de type GPT à 32 couches, 32 têtes d'attention et une dimension de 128 par tête stockée en fp16, chaque token du cache KV représente 524 288 octets (512 Ko). Pour une séquence maximale de 2 048 tokens, chaque requête pré-alloue 1 024 Mo de VRAM — mais n'en utilise en moyenne que 250 Mo pour une réponse typique de 500 tokens, soit un taux d'utilisation de seulement 24,4 %. Sur 100 utilisateurs simultanés, ce sont 75 Go de mémoire GPU immobilisés inutilement. L'attention paginée résout cela en découpant le cache KV en blocs de 16 tokens alloués à la demande, et en permettant le partage de préfixes identiques entre requêtes via un mécanisme de Copy-on-Write.
Cette approche, popularisée par le moteur d'inférence vLLM, représente aujourd'hui une brique fondamentale pour tout système de production sérieux. Les gains en débit sont substantiels dès les charges modérées — l'article mesure l'écart d'utilisation mémoire sur des batchs de 10 à 200 requêtes simultanées — et permettent de différer ou d'éviter des investissements matériels coûteux pour les équipes qui déploient des LLMs à l'échelle.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




