Aller au contenu principal
Formation et affinage de modèles de reranker avec Sentence Transformers v4
RechercheHuggingFace Blog64sem· 1 min de lecture

Formation et affinage de modèles de reranker avec Sentence Transformers v4

Source originale ↗·

Le document traite de la formation et de la finesse des modèles de reranker à l'aide de Sentence Transformers v4. Il met l'accent sur l'amélioration des performances pour les tâches de re-rangage, avec une attention particulière aux modèles BERT et RoBERTa, optimisés pour la vitesse et l'efficacité. Des expériences montrent une amélioration significative des scores de récupération en utilisant ces modèles fins.

Impact France/UE

L'amélioration des modèles de reranker par Sentence Transformers v4 offre des performances accrues pour les entreprises françaises et européennes en traitement automatique de langage, notamment celles utilisant BERT et RoBERTa, en conformité avec le RGPD, pour améliorer les systèmes de recherche et de tri de texte.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mélange d'Experts (MoEs) dans les Transformers
1HuggingFace Blog 

Mélange d'Experts (MoEs) dans les Transformers

Traduction et résumé: Les "Mixtures of Experts" (MoE) dans les Transformers permettent une meilleure gestion des ressources en allouant des ressources spécifiques à différentes parties du modèle, augmentant ainsi l'efficacité et la précision. Le modèle Google T5, utilisant MoE, a atteint un record de 91,2 sur le benchmark BLEU pour la traduction anglaise-allemande.

UEGoogle T5, un modèle français, améliore l'efficacité des systèmes de traduction grâce à l'application de "Mixtures of Experts" (MoE) dans les Transformers, conformément à l'AI Act, en obtenant un record de 91,2 sur le benchmark BLEU pour la traduction anglaise-allemande.

RechercheOutil
1 source
2Amazon Science 

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Une étude d'ablation menée par des chercheurs d'Amazon sur le modèle Nova 2.0 Lite identifie le module oproj comme le point d'insertion optimal pour les adaptateurs LoRA, offrant le meilleur compromis entre efficacité et précision lors du fine-tuning. LoRA permet d'affiner des LLMs en gelant les poids du modèle de base et en ajoutant de légères matrices dans des sous-couches spécifiques, réduisant ainsi les coûts GPU, la mémoire et la latence d'inférence. Plutôt que de cibler tous les modules (coûteux), cibler uniquement oproj — une transformation linéaire qui fusionne les représentations des têtes d'attention — préserve l'essentiel des gains de performance avec une efficacité significativement améliorée.

RecherchePaper
1 source
Entraînement par anticipation latente pour les Transformers
3Apple Machine Learning 

Entraînement par anticipation latente pour les Transformers

Des chercheurs ont présenté une nouvelle méthode d'entraînement pour les modèles de langage appelée « Latent Lookahead Training », acceptée au workshop ICLR 2026 sur la réflexion latente et implicite. Cette approche s'attaque à une limitation fondamentale des modèles autorégressifs actuels : la prédiction token par token, qui oblige le modèle à se figer sur un choix à chaque étape sans pouvoir explorer plusieurs continuations possibles. De plus, le calcul est distribué de manière uniforme entre tous les tokens, même quand certains sont bien plus complexes que d'autres. Cette contrainte n'est pas anodine — elle bride directement la capacité des modèles à planifier ou à « réfléchir » avant de s'engager dans une direction. En permettant au modèle d'anticiper dans un espace latent avant de produire chaque token, le Latent Lookahead vise à allouer plus de calcul là où c'est nécessaire et à ouvrir la porte à une forme de délibération interne, sans passer par le Chain-of-Thought explicite. La recherche s'inscrit dans un mouvement plus large visant à dépasser les limites du raisonnement en chaîne visible, en explorant comment les modèles peuvent développer une forme de pensée implicite plus flexible et efficace.

RecherchePaper
1 source
GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot
4arXiv cs.RO 

GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot

Des chercheurs ont publié sur arXiv (référence 2604.25670) un système d'apprentissage automatique capable de reconstituer l'activité musculaire d'un individu à partir de simples capteurs de mouvement portables, sans recourir aux électrodes d'électromyographie traditionnelles. L'architecture proposée, baptisée GEGLU-Transformer, combine un encodeur de type Transformer avec des unités linéaires à porte d'erreur gaussienne (GEGLU) pour estimer en continu les enveloppes d'activation neuromusculaire des membres inférieurs. Testée selon un protocole strict dit "leave-one-subject-out" sur un jeu de données biomécanique multi-conditions, elle atteint une corrélation r = 0,706 sans aucune adaptation individuelle, puis r = 0,761 avec seulement 0,5 % des données spécifiques au sujet utilisées pour la personnalisation, soit une amélioration significative à partir d'un volume d'entraînement négligeable. Ces résultats ouvrent une voie concrète pour déployer des exosquelettes et des prothèses robotiques en dehors des laboratoires. L'électromyographie de surface, qui mesure l'activité électrique des muscles via des électrodes cutanées, est aujourd'hui indispensable au contrôle adaptatif de ces dispositifs, mais elle reste fragile : les signaux varient selon la transpiration, le placement des électrodes ou les caractéristiques physiologiques propres à chaque utilisateur. Remplacer ces capteurs par des centrales inertielles, accéléromètres et gyroscopes déjà intégrés dans la plupart des appareils portables grand public, permettrait de rendre ces systèmes nettement plus robustes, moins contraignants à calibrer et potentiellement accessibles à une population bien plus large de patients ou d'utilisateurs industriels. Le problème de la variabilité inter-individuelle est l'un des grands obstacles non résolus de la robotique neuromusculaire depuis plusieurs années. Les approches classiques nécessitaient des sessions de calibration longues et répétées pour chaque nouvel utilisateur, ce qui rendait leur usage clinique difficile à grande échelle. L'introduction d'architectures à base d'attention, popularisées par les grands modèles de langage, dans le domaine biomécanique reflète une tendance plus large à recycler des paradigmes issus du traitement du langage naturel vers des signaux physiologiques temporels. La capacité du modèle à se personnaliser rapidement avec très peu de données ouvre la perspective de dispositifs qui s'adaptent à leur porteur en quelques secondes, sans intervention d'un clinicien.

UELes fabricants européens d'exosquelettes et de prothèses pourraient bénéficier de cette approche pour réduire les contraintes de calibration clinique et élargir l'accès aux dispositifs d'assistance motrice.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic