Aller au contenu principal
Formation et affinage des modèles d'embeddings sparse avec Sentence Transformers v5
RechercheHuggingFace Blog51sem· 1 min de lecture

Formation et affinage des modèles d'embeddings sparse avec Sentence Transformers v5

Source originale ↗·

"L'article 'Training and Finetuning Sparse Embedding Models with Sentence Transformers v5' détaille l'utilisation de Sentence Transformers v5 pour l'entraînement et le réajustement des modèles d'embeddings sparses. Il met en avant l'amélioration de l'efficacité grâce à une architecture plus légère et efficace, réduisant ainsi la consommation de mémoire et augmentant les performances sur les tâches de compréhension du langage."

Key points: - Utilisation de Sentence Transformers v5 - Entraînement et réajustement de modèles d'embeddings sparses - Architecture plus légère et efficace pour une meilleure utilisation des ressources - Amélioration des performances sur les tâches de compréhension du langage.

Impact France/UE

L'utilisation de Sentence Transformers v5 pour entraîner et affiner des modèles d'embeddings sparses offre aux entreprises françaises et européennes des outils plus efficaces et légers pour les tâches de compréhension du langage, potentiellement améliorant les performances de systèmes basés sur l'IA en conformité avec la future AI Act, tout en respectant les exigences du RGPD grâce à une meilleure gestion des données.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mélange d'Experts (MoEs) dans les Transformers
1HuggingFace Blog 

Mélange d'Experts (MoEs) dans les Transformers

Traduction et résumé: Les "Mixtures of Experts" (MoE) dans les Transformers permettent une meilleure gestion des ressources en allouant des ressources spécifiques à différentes parties du modèle, augmentant ainsi l'efficacité et la précision. Le modèle Google T5, utilisant MoE, a atteint un record de 91,2 sur le benchmark BLEU pour la traduction anglaise-allemande.

UEGoogle T5, un modèle français, améliore l'efficacité des systèmes de traduction grâce à l'application de "Mixtures of Experts" (MoE) dans les Transformers, conformément à l'AI Act, en obtenant un record de 91,2 sur le benchmark BLEU pour la traduction anglaise-allemande.

RechercheOutil
1 source
Entraînement par anticipation latente pour les Transformers
2Apple Machine Learning 

Entraînement par anticipation latente pour les Transformers

Des chercheurs ont présenté une nouvelle méthode d'entraînement pour les modèles de langage appelée « Latent Lookahead Training », acceptée au workshop ICLR 2026 sur la réflexion latente et implicite. Cette approche s'attaque à une limitation fondamentale des modèles autorégressifs actuels : la prédiction token par token, qui oblige le modèle à se figer sur un choix à chaque étape sans pouvoir explorer plusieurs continuations possibles. De plus, le calcul est distribué de manière uniforme entre tous les tokens, même quand certains sont bien plus complexes que d'autres. Cette contrainte n'est pas anodine — elle bride directement la capacité des modèles à planifier ou à « réfléchir » avant de s'engager dans une direction. En permettant au modèle d'anticiper dans un espace latent avant de produire chaque token, le Latent Lookahead vise à allouer plus de calcul là où c'est nécessaire et à ouvrir la porte à une forme de délibération interne, sans passer par le Chain-of-Thought explicite. La recherche s'inscrit dans un mouvement plus large visant à dépasser les limites du raisonnement en chaîne visible, en explorant comment les modèles peuvent développer une forme de pensée implicite plus flexible et efficace.

RecherchePaper
1 source
3Amazon Science 

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Une étude d'ablation menée par des chercheurs d'Amazon sur le modèle Nova 2.0 Lite identifie le module oproj comme le point d'insertion optimal pour les adaptateurs LoRA, offrant le meilleur compromis entre efficacité et précision lors du fine-tuning. LoRA permet d'affiner des LLMs en gelant les poids du modèle de base et en ajoutant de légères matrices dans des sous-couches spécifiques, réduisant ainsi les coûts GPU, la mémoire et la latence d'inférence. Plutôt que de cibler tous les modules (coûteux), cibler uniquement oproj — une transformation linéaire qui fusionne les représentations des têtes d'attention — préserve l'essentiel des gains de performance avec une efficacité significativement améliorée.

RecherchePaper
1 source
Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif
4MarkTechPost 

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic