RechercheApple Machine Learning1j· 1 min de lecture

Résumé du contexte de diffusion à contexte résiduel dans les modèles de langage

Une nouvelle piste de recherche vise à rendre les modèles de langage à diffusion plus efficaces en évitant de gâcher du calcul déjà effectué. Les dLLM (diffusion large language models) sont présentés depuis plusieurs mois comme une alternative sérieuse aux modèles autorégressifs classiques du type GPT, car ils peuvent décoder plusieurs tokens simultanément plutôt qu'un seul à la fois, ce qui accélère potentiellement la génération de texte. Les versions les plus avancées de ces modèles, dites "block-wise", utilisent un mécanisme appelé remasking : à chaque étape, seuls les tokens jugés les plus fiables sont conservés et décodés, tandis que tous les autres sont simplement écartés et recalculés plus tard. Des chercheurs montrent que cette approche jette en réalité une information précieuse, puisque les tokens rejetés contiennent malgré tout du contexte utile pour les étapes suivantes de décodage. Ils proposent donc Residual Context Diffusion (RCD), un module conçu pour récupérer et réutiliser ce calcul habituellement perdu.

L'enjeu est directement lié au coût de calcul de l'intelligence artificielle générative. Si les modèles à diffusion tiennent leur promesse de générer du texte plus vite grâce au parallélisme, gaspiller une partie des calculs à chaque itération limite leurs gains réels face aux modèles autorégressifs optimisés depuis des années. En recyclant l'information contenue dans les tokens non retenus, RCD permettrait d'améliorer l'efficacité globale du décodage sans changer l'architecture de base des dLLM, ce qui intéresse directement les équipes qui cherchent à réduire la facture énergétique et matérielle de l'inférence à grande échelle.

Cette recherche s'inscrit dans une compétition plus large entre deux familles de modèles de langage : les autorégressifs, dominants aujourd'hui, et les modèles à diffusion, longtemps cantonnés à l'image et au son mais de plus en plus étudiés pour le texte. Résoudre le gaspillage de calcul du remasking est une étape technique jugée nécessaire pour que les dLLM deviennent compétitifs en pratique, et pourrait influencer la conception des prochaines générations de modèles génératifs.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

Diffusion des politiques de démasquage pour les modèles de langage par diffusion

Les modèles de langage à diffusion (dLLMs) atteignent désormais des performances comparables à celles des modèles autorégressifs classiques sur de nombreuses tâches, tout en promettant une meilleure efficacité lors de l'inférence. Un aspect central de leur conception réside dans la procédure d'échantillonnage, c'est-à-dire la méthode qui détermine quels tokens démasquer à chaque étape du processus de diffusion. Des travaux récents montrent que des stratégies heuristiques, comme le seuillage de confiance, améliorent à la fois la qualité des échantillons générés et le débit de tokens par rapport à un démasquage aléatoire. Ces heuristiques nécessitent cependant un réglage manuel minutieux pour fonctionner correctement. Ce constat pose un problème concret pour l'adoption des dLLMs à grande échelle : sans automatisation de ce réglage, chaque nouvelle tâche ou configuration exige une intervention humaine pour ajuster les paramètres de démasquage, ce qui limite la flexibilité et l'efficacité pratique de ces modèles. Or l'un des arguments majeurs en faveur des dLLMs face aux modèles autorégressifs est justement leur potentiel de génération plus rapide, puisqu'ils peuvent en théorie démasquer plusieurs tokens en parallèle plutôt que mot par mot. Si les politiques de démasquage restent dépendantes d'un tuning manuel fragile, ce gain d'efficacité promis reste difficile à exploiter pleinement en conditions réelles. Ces travaux s'inscrivent dans un mouvement de recherche plus large visant à rendre les dLLMs, une alternative encore récente aux architectures autorégressives dominantes comme GPT, réellement compétitifs en production. Après avoir démontré leur viabilité sur le plan de la qualité de génération, la communauté cherche maintenant à automatiser les choix algorithmiques qui restent aujourd'hui confiés à l'intuition des chercheurs, en particulier via des politiques de démasquage apprises plutôt que fixées à la main. L'enjeu porte sur la capacité de ces modèles à généraliser leurs performances sans dépendre d'un réglage spécifique à chaque tâche.

RecherchePaper

1 source

2Apple Machine Learning

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper

1 source

3MarkTechPost

L'attention paginée dans les grands modèles de langage

Dans les LLMs à grande échelle, la mémoire GPU est le principal goulot d'étranglement : chaque requête réserve un bloc fixe pour le cache KV basé sur la longueur maximale de séquence (2048 tokens, soit 1024 Mo), alors qu'en moyenne seulement 24,4 % de cet espace est réellement utilisé — représentant 75 Go gaspillés pour 100 utilisateurs simultanés. Le Paged Attention résout ce problème en découpant le cache KV en petits blocs alloués dynamiquement (16 tokens par page, inspiré de la mémoire virtuelle), permettant aussi à plusieurs requêtes partageant le même prompt de partager la mémoire via un mécanisme Copy-on-Write. Cette approche améliore drastiquement l'efficacité mémoire et le débit, mesurée ici sur des batchs de 10 à 200 requêtes simultanées.

RecherchePaper

1 source

4VentureBeat AI

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA

Des chercheurs du King's College London et de l'Alan Turing Institute ont développé xMemory, une nouvelle technique de mémoire pour les agents d'intelligence artificielle conçus pour fonctionner sur de longues durées et plusieurs sessions. Le problème qu'ils cherchent à résoudre est concret : les pipelines RAG (Retrieval-Augmented Generation) standard, qui permettent aux LLMs de puiser dans des données externes, ne sont pas adaptés aux assistants persistants. xMemory organise les conversations en une hiérarchie structurée de thèmes sémantiques, puis les recherche de haut en bas — du thème général vers les détails bruts — au lieu de faire des recherches directes dans les journaux de conversation bruts. Les résultats sont significatifs : selon les chercheurs, le système ramène la consommation de tokens de plus de 9 000 à environ 4 700 tokens par requête sur certaines tâches, tout en améliorant la qualité des réponses et le raisonnement sur le long terme. L'enjeu est majeur pour les entreprises qui déploient des agents IA dans des contextes métiers — assistants personnalisés, outils de décision multi-sessions, support client continu. Le problème fondamental du RAG classique dans ce contexte, c'est que la mémoire d'un agent n'est pas une base de données diverse, mais un flux continu et corrélé de conversations. Les passages récupérés se ressemblent souvent, contiennent des quasi-doublons, et sont liés par des coréférences et des dépendances temporelles strictes. Résultat : les systèmes classiques récupèrent trop d'informations similaires sur un même sujet — par exemple, plusieurs variantes de "j'aime les oranges" — en ratant des faits catégoriels essentiels pour répondre à la vraie question. Les tentatives de correction par filtrage ou compression après récupération aggravent souvent le problème, car elles suppriment accidentellement des éléments de contexte indispensables. L'approche xMemory repose sur un principe qu'ils appellent "découplage vers agrégation" : au lieu d'interroger directement les logs de conversation, le système décompose d'abord le flux en faits sémantiques distincts et autonomes, puis les regroupe dans une hiérarchie de thèmes. Cette structure évite la redondance — deux passages similaires assignés à des composants sémantiques différents ne seront pas récupérés ensemble. C'est une réponse directe à l'un des angles morts les plus sous-estimés du déploiement LLM en entreprise : la gestion de la mémoire à long terme. Alors que la demande pour des agents IA cohérents et personnalisés explose, xMemory propose une architecture qui réduit à la fois les coûts de calcul et les hallucinations liées à une mémoire mal gérée — un double gain qui pourrait rapidement influencer la façon dont les équipes d'ingénierie construisent leurs pipelines d'agents persistants.

UELa recherche, menée par le King's College London et l'Alan Turing Institute, pourrait influencer les architectures d'agents IA adoptées par les équipes d'ingénierie européennes cherchant à réduire les coûts de déploiement et améliorer la cohérence des assistants persistants.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic