Aller au contenu principal
Mélange d'Experts (MoEs) dans les Transformers
RechercheHuggingFace Blog14sem

Mélange d'Experts (MoEs) dans les Transformers

Résumé IASource uniqueImpact UE
Source originale ↗·

Traduction et résumé: Les "Mixtures of Experts" (MoE) dans les Transformers permettent une meilleure gestion des ressources en allouant des ressources spécifiques à différentes parties du modèle, augmentant ainsi l'efficacité et la précision. Le modèle Google T5, utilisant MoE, a atteint un record de 91,2 sur le benchmark BLEU pour la traduction anglaise-allemande.

Impact France/UE

Google T5, un modèle français, améliore l'efficacité des systèmes de traduction grâce à l'application de "Mixtures of Experts" (MoE) dans les Transformers, conformément à l'AI Act, en obtenant un record de 91,2 sur le benchmark BLEU pour la traduction anglaise-allemande.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts
1MarkTechPost 

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

Une bibliothèque Python open source baptisée OpenMythos propose une reconstruction théorique de l'architecture dite "Claude Mythos", une approche de raisonnement approfondi qui mise sur l'itération computationnelle plutôt que sur l'augmentation du nombre de paramètres. Publiée sur PyPI sous le nom open-mythos, elle permet de construire des modèles de langage dotés d'un mécanisme de profondeur récurrente, où la même couche de traitement est traversée plusieurs fois en boucle. Le tutoriel publié explore deux variantes du mécanisme d'attention : GQA (Grouped Query Attention) et MLA (Multi-head Latent Attention), compare leur empreinte mémoire respective, entraîne un modèle sur une tâche de parité binaire, et inspecte l'utilisation des experts dans des couches de type Mixture-of-Experts (MoE). Les expériences montrent que MLA réduit la taille du cache KV d'un facteur d'environ 2 par rapport à GQA pour une séquence de 64 tokens sur 4 boucles. L'enjeu central de l'architecture est ce que les auteurs appellent la "depth extrapolation" : la capacité à augmenter le nombre de boucles de raisonnement au moment de l'inférence, sans réentraîner le modèle. Un modèle entraîné avec 4 itérations peut ainsi être utilisé avec 8 ou 16 boucles pour améliorer ses performances sur des tâches complexes, sans modifier aucun paramètre. Ce paradigme s'inscrit dans la tendance plus large du "test-time compute", qui consiste à allouer davantage de calcul au moment de la génération plutôt qu'à l'entraînement. Le tutoriel valide également la stabilité numérique du modèle via les propriétés spectrales de la matrice de mise à jour récurrente, un point critique pour éviter l'explosion ou la disparition des gradients dans les boucles profondes. Le module ACT (Adaptive Computation Time) permet en outre au modèle de décider dynamiquement combien d'itérations sont nécessaires pour chaque token. Cette publication s'inscrit dans un contexte de forte effervescence autour des architectures alternatives aux transformeurs classiques. La référence à "Claude Mythos" suggère une inspiration directe des travaux d'Anthropic, même si le projet reste une reconstruction théorique non officielle. Le champ des architectures récurrentes profondes connaît un regain d'intérêt depuis 2024, porté par des travaux comme les Recurrent Depth Transformers de Google DeepMind et les architectures hybrides SSM/attention. OpenMythos se positionne comme un outil pédagogique et expérimental pour explorer ces idées, à destination de chercheurs et d'ingénieurs qui cherchent à comprendre comment atteindre des capacités de raisonnement plus profondes sans multiplier les paramètres, une piste particulièrement pertinente dans un contexte où l'entraînement de modèles frontières est devenu prohibitif pour la majorité des acteurs.

RecherchePaper
1 source
Entraînement par anticipation latente pour les Transformers
2Apple Machine Learning 

Entraînement par anticipation latente pour les Transformers

Des chercheurs ont présenté une nouvelle méthode d'entraînement pour les modèles de langage appelée « Latent Lookahead Training », acceptée au workshop ICLR 2026 sur la réflexion latente et implicite. Cette approche s'attaque à une limitation fondamentale des modèles autorégressifs actuels : la prédiction token par token, qui oblige le modèle à se figer sur un choix à chaque étape sans pouvoir explorer plusieurs continuations possibles. De plus, le calcul est distribué de manière uniforme entre tous les tokens, même quand certains sont bien plus complexes que d'autres. Cette contrainte n'est pas anodine — elle bride directement la capacité des modèles à planifier ou à « réfléchir » avant de s'engager dans une direction. En permettant au modèle d'anticiper dans un espace latent avant de produire chaque token, le Latent Lookahead vise à allouer plus de calcul là où c'est nécessaire et à ouvrir la porte à une forme de délibération interne, sans passer par le Chain-of-Thought explicite. La recherche s'inscrit dans un mouvement plus large visant à dépasser les limites du raisonnement en chaîne visible, en explorant comment les modèles peuvent développer une forme de pensée implicite plus flexible et efficace.

RecherchePaper
1 source
L'attention paginée dans les grands modèles de langage
3MarkTechPost 

L'attention paginée dans les grands modèles de langage

Dans les LLMs à grande échelle, la mémoire GPU est le principal goulot d'étranglement : chaque requête réserve un bloc fixe pour le cache KV basé sur la longueur maximale de séquence (2048 tokens, soit 1024 Mo), alors qu'en moyenne seulement 24,4 % de cet espace est réellement utilisé — représentant 75 Go gaspillés pour 100 utilisateurs simultanés. Le Paged Attention résout ce problème en découpant le cache KV en petits blocs alloués dynamiquement (16 tokens par page, inspiré de la mémoire virtuelle), permettant aussi à plusieurs requêtes partageant le même prompt de partager la mémoire via un mécanisme Copy-on-Write. Cette approche améliore drastiquement l'efficacité mémoire et le débit, mesurée ici sur des batchs de 10 à 200 requêtes simultanées.

RecherchePaper
1 source
Résultats critiques: Moonshot AI dévoile des résultats pour remplacer le mélange résiduel fixe par une attention depth-wise pour une meilleure évolutivité dans les transformateurs
4MarkTechPost 

Résultats critiques: Moonshot AI dévoile des résultats pour remplacer le mélange résiduel fixe par une attention depth-wise pour une meilleure évolutivité dans les transformateurs

Moonshot AI a présenté Attention Residuals (AttnRes), un remplacement des connexions résiduelles standard dans les Transformers. Les chercheurs soutiennent que les connexions résiduelles actuelles introduisent un problème structurel, car toutes les sorties précédentes sont accumulées avec des poids unitaires fixes, entraînant une croissance de la magnitude de l'état caché et faiblissant progressivement le contribucion de chaque couche. AttnRes permet à chaque couche d'agréger les représentations antérieures via une attention softmax sur la profondeur, plutôt que sur la position séquentielle. Les principaux problèmes des connexions résiduelles standard incluent l'accès non selectif, la perte irréversible d'informations et la croissance de l'output, qui peuvent entraîner une instabilité de l'entraînement. Full AttnRes calcule les poids d'attention sur toutes les sources de profondeur précédentes, augmentant ainsi le coût mais offrant une meilleure gestion des informations.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour