MemoryLLM : mémoire feed-forward interprétable et modulaire pour les transformers
Cette étude s'attaque à un problème central en interprétabilité des grands modèles de langage : comprendre comment fonctionnent les modules feed-forward (FFN) au sein des transformers. Les chercheurs proposent MemoryLLM, une approche qui découple les couches feed-forward du mécanisme d'auto-attention pour les étudier séparément, comme une forme de mémoire de récupération neuronale organisée token par token et indépendante du contexte. Concrètement, les auteurs analysent la façon dont chaque token d'entrée accède à des emplacements précis dans les paramètres du FFN, un peu comme s'il consultait des cases mémoire dédiées, et évaluent l'importance relative de cette mémoire FFN selon les tâches à accomplir en aval.
Cette démarche compte parce que l'opacité des grands modèles de langage reste l'un des principaux freins à leur adoption dans des contextes sensibles où la traçabilité des décisions est exigée, que ce soit en santé, en finance ou en droit. En rendant lisible le rôle spécifique des couches feed-forward, longtemps traitées comme une boîte noire au même titre que l'attention, MemoryLLM ouvre la voie à des architectures plus transparentes et potentiellement plus faciles à auditer, corriger ou spécialiser sans réentraînement complet.
Le travail s'inscrit dans un courant de recherche plus large sur l'interprétabilité mécaniste, qui cherche à décomposer les réseaux de neurones en composants aux fonctions identifiables plutôt que de les traiter comme des systèmes monolithiques. Alors que l'essentiel des efforts en interprétabilité s'est concentré sur les mécanismes d'attention, les couches feed-forward, qui représentent pourtant une part majoritaire des paramètres d'un transformer, restaient largement sous-étudiées. En proposant une méthode "plug-and-play", les auteurs suggèrent une intégration possible dans des architectures existantes sans refonte majeure, une piste que d'autres équipes pourraient chercher à valider sur des modèles de plus grande échelle.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




