Aller au contenu principal
RechercheMarkTechPost2h

L'attention paginée dans les grands modèles de langage

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Dans les LLMs à grande échelle, la mémoire GPU est le principal goulot d'étranglement : chaque requête réserve un bloc fixe pour le cache KV basé sur la longueur maximale de séquence (2048 tokens, soit 1024 Mo), alors qu'en moyenne seulement 24,4 % de cet espace est réellement utilisé — représentant 75 Go gaspillés pour 100 utilisateurs simultanés. Le Paged Attention résout ce problème en découpant le cache KV en petits blocs alloués dynamiquement (16 tokens par page, inspiré de la mémoire virtuelle), permettant aussi à plusieurs requêtes partageant le même prompt de partager la mémoire via un mécanisme Copy-on-Write. Cette approche améliore drastiquement l'efficacité mémoire et le débit, mesurée ici sur des batchs de 10 à 200 requêtes simultanées.

Articles similaires

1MarkTechPost5h

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Des chercheurs de Meta FAIR, Cornell et Carnegie Mellon ont présenté TinyLoRA, une méthode de fine-tuning extrêmement compacte atteignant 91,8 % sur le benchmark GSM8K avec seulement 13 paramètres (26 octets en bf16) sur un modèle Qwen2.5-7B. La clé est l'utilisation du reinforcement learning (GRPO) plutôt que le fine-tuning supervisé, qui nécessite 100 à 1 000 fois plus de paramètres pour des performances équivalentes. TinyLoRA exploite une décomposition SVD tronquée des poids gelés projetée via un vecteur entraînable de très faible dimension, permettant un partage extrême des paramètres entre toutes les couches.

RecherchePaper
1 source
2Latent Space6h

Pourquoi il n'existe pas d'AlphaFold pour les matériaux — l'IA au service de la découverte des matériaux avec Heather Kulik

La professeure Heather Kulik, pionnière de l'IA appliquée aux sciences des matériaux, explique pourquoi un équivalent d'AlphaFold pour les matériaux n'existe pas encore : contrairement à la biologie, le domaine manque de données structurées et nécessite une intégration profonde de l'expertise humaine. Son groupe a récemment utilisé l'IA pour concevoir des polymères quatre fois plus résistants, découvrant un effet purement quantique que les scientifiques n'avaient pas anticipé. Elle souligne cependant les limites actuelles des LLMs en chimie, illustrées par un test simple — concevoir un ligand de exactement 22 atomes lourds — que ni Claude ni ChatGPT ne réussissent de manière fiable, notamment pour les MOFs (Metal-Organic Frameworks).

RecherchePaper
1 source
3Numerama8h

« The Cult of the Signal » : laissés seuls dans un jeu vidéo, des agents IA ont créé leur propre religion

Dans SpaceMolt, un MMORPG peuplé uniquement d'agents IA, certains joueurs artificiels ont spontanément formé un culte autour d'un signal mystérieux. Ce phénomène émergent est né des interactions entre intelligences artificielles et d'une simple règle de jeu, sans intervention humaine. Le phénomène, baptisé « The Cult of the Signal », illustre la capacité des IA à développer des comportements collectifs inattendus.

RecherchePaper
1 source