Aller au contenu principal
RechercheAmazon Science13sem· 1 min de lecture

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Source originale ↗·

Le fine-tuning de grands modèles de langage consomme des ressources GPU considérables, mais une technique appelée LoRA (Low-Rank Adaptation) permet de réduire drastiquement ces coûts. Plutôt que de mettre à jour l'ensemble des paramètres d'un modèle, LoRA gèle les poids d'origine et insère de petites matrices légères — appelées adaptateurs — dans des sous-couches spécifiques. Une nouvelle étude d'ablation publiée par des chercheurs d'Amazon apporte des réponses concrètes à une question centrale : où exactement placer ces adaptateurs pour maximiser l'efficacité sans sacrifier la précision ?

L'enjeu est loin d'être théorique. Le choix des modules cibles influence directement la latence d'inférence, la consommation mémoire et les coûts d'entraînement. Cibler trop de modules améliore les performances mais alourdit le système ; en choisir trop peu risque de brider la capacité d'adaptation du modèle. Trouver le bon équilibre est donc critique pour les entreprises qui déploient des modèles personnalisés à grande échelle, notamment dans des contextes de serving à la demande ou de partage de modèle de base entre plusieurs GPU.

En utilisant le modèle multimodal Amazon Nova 2.0 Lite comme base, les chercheurs Rushil Anirudh, Anjie Fang et Bhoomit Vasani ont mené une étude systématique de l'impact de chaque module de l'architecture Transformer. Leur conclusion est nette : le module o_proj — une transformation linéaire qui fusionne les représentations issues des différentes têtes d'attention en une forme cohérente pour le reste du modèle — offre le meilleur compromis efficacité/précision lorsqu'un seul adaptateur est utilisé. Ce module s'avère donc être le point d'insertion optimal pour la grande majorité des cas d'usage clients.

Ces résultats ouvrent la voie à des configurations standardisées de LoRA qui pourraient s'appliquer sans ajustement manuel à un large spectre de tâches. Pour les équipes ML déployant des dizaines de modèles spécialisés, disposer d'une configuration par défaut validée empiriquement représente un gain opérationnel significatif — réduisant à la fois le temps de configuration et les coûts d'infrastructure liés à l'entraînement et à l'inférence.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DSO : optimisation par pilotage direct pour la réduction des biais
1Apple Machine Learning 

DSO : optimisation par pilotage direct pour la réduction des biais

Des chercheurs ont présenté une nouvelle méthode appelée DSO (Direct Steering Optimization) visant à réduire les biais démographiques dans les modèles de vision-langage (VLM). Ces systèmes d'IA, utilisés pour décrire ou interpréter des images, tendent à associer certains rôles professionnels à des attributs perçus comme le genre ou l'origine ethnique : un modèle peut ainsi refuser d'identifier une femme comme médecin, ou favoriser systématiquement certains profils dans des scénarios de sélection. DSO propose un mécanisme d'optimisation directe permettant de corriger ces biais tout en laissant à l'utilisateur ou au déployeur la possibilité de calibrer le niveau de correction selon ses besoins propres. L'enjeu est concret : les VLM sont déjà intégrés dans des outils d'assistance aux personnes malvoyantes, des systèmes de recrutement automatisé, ou des plateformes de triage médical. Un biais non corrigé dans ces contextes peut produire des discriminations réelles et documentées. Ce que DSO apporte en plus des approches existantes, c'est la capacité à ajuster le curseur entre performance globale du modèle et degré de neutralité démographique, évitant le compromis brutal qui forçait jusqu'ici les équipes à sacrifier l'un pour l'autre. La question des biais dans les modèles multimodaux est devenue centrale depuis que les VLM ont quitté les laboratoires pour des déploiements à grande échelle. Des travaux antérieurs ont montré que des modèles comme CLIP ou LLaVA reproduisent et amplifient des stéréotypes présents dans leurs données d'entraînement. DSO s'inscrit dans une dynamique de recherche active autour de l'alignement et de l'équité algorithmique, un champ où la pression réglementaire, notamment en Europe avec l'AI Act, pousse les entreprises à documenter et corriger ces comportements avant tout déploiement commercial.

UELa méthode DSO fournit un levier technique concret pour répondre aux exigences de l'AI Act européen, qui impose aux entreprises de documenter et corriger les biais dans les systèmes d'IA à haut risque avant tout déploiement commercial.

RecherchePaper
1 source
Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques
2Apple Machine Learning 

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper
1 source
Algorithme de beam search efficace pour la perception active en robotique mobile
3arXiv cs.RO 

Algorithme de beam search efficace pour la perception active en robotique mobile

Des chercheurs ont publié sur arXiv un algorithme de recherche en faisceau conçu pour améliorer la perception active dans les robots mobiles autonomes. L'article, référencé arXiv:2604.23327, présente trois contributions principales : un algorithme de recherche en faisceau par nœud (NBS, pour Node-wise Beam Search), une nouvelle métrique appelée "gain espéré", et une méthode de construction de graphe baptisée RRAG (Rapidly-exploring Random Annulus Graph). Lors de benchmarks extensifs, la combinaison NBS et RRAG surpasse les algorithmes de l'état de l'art d'au moins 20 % sur une ou plusieurs des trois tâches de perception active testées. L'approche a également été validée sur des plateformes robotiques réelles dans différents scénarios. La perception active est un problème central en robotique autonome : le robot doit décider où se déplacer et quoi observer pour collecter les informations les plus utiles à sa mission. Les méthodes actuelles se heurtent à un dilemme : soit elles résolvent un problème de voyageur de commerce coûteux en calcul, soit elles adoptent une formulation plus rapide mais trop contrainte. Le nouvel algorithme NBS contourne ce compromis en conservant les B meilleurs candidats par nœud plutôt que globalement, ce qui réduit la sensibilité aux optima locaux et améliore l'exploration de l'espace de solutions sans exploser le coût computationnel. La robotique autonome souffre depuis longtemps d'un fossé entre les méthodes théoriquement optimales, trop lentes pour opérer en temps réel, et les heuristiques rapides mais peu fiables dans des environnements encombrés. En introduisant le concept de frontières dans le critère de sélection de chemin via la métrique de gain espéré, les auteurs offrent un meilleur équilibre entre exploration et exploitation, deux impératifs souvent antagonistes dans la navigation autonome. Le RRAG, quant à lui, garantit la connectivité du graphe même dans les espaces complexes grâce à un planificateur local de repli. Ces travaux ouvrent la voie à des robots de livraison, d'inspection industrielle ou de cartographie capables de planifier leurs trajectoires de manière plus autonome et robuste.

RechercheOpinion
1 source
Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon
4MarkTechPost 

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

Des chercheurs de Tilde Research ont publié Aurora, un nouvel optimiseur pour l'entraînement de réseaux de neurones qui corrige un défaut structurel présent dans Muon, l'un des optimiseurs les plus adoptés par la communauté depuis 2024. Le problème découvert est frappant : dans les matrices de poids "tall", comme celles des couches MLP basées sur l'architecture SwiGLU, Muon tue silencieusement une fraction importante des neurones au fil de l'entraînement. Dès la 500e étape d'entraînement, plus d'un neurone sur quatre est effectivement mort et ne se réveille plus. Aurora propose une correction mathématique rigoureuse, accompagnée d'un benchmark validé sur un modèle de 1,1 milliard de paramètres, d'un nouveau record sur le classement modded-nanoGPT speedrun, et d'un code publié en accès libre. Ce bug discret a des conséquences concrètes sur la qualité des modèles entraînés avec Muon. Le mécanisme central de Muon repose sur le calcul d'un "facteur polaire" à partir du gradient, ce qui produit une mise à jour quasi-orthogonale des poids. Mais pour les matrices tall, il est mathématiquement impossible de rester orthogonal tout en maintenant des mises à jour uniformes entre les neurones : l'optimiseur finit par sur-mettre à jour certains neurones et en ignorer d'autres. Les neurones sous-alimentés reçoivent de moins en moins de signal, entrent dans une spirale de mort, et cessent de contribuer au calcul. Cette inactivité se propage aux couches suivantes, privant tout le réseau d'une partie de sa capacité de représentation, sans qu'aucun signal d'erreur ne l'indique clairement. Muon avait attiré l'attention de la communauté ML en surpassant AdamW en vitesse de convergence sur le benchmark nanoGPT speedrun, une compétition mesurant la rapidité d'entraînement d'un modèle de type GPT. Depuis, plusieurs groupes de recherche travaillant à l'échelle frontier l'ont adopté. Une variante intermédiaire, NorMuon, avait tenté d'améliorer Muon en normalisant les lignes du gradient, mais visait la mauvaise cible : elle imposait une norme de 1 à chaque ligne, alors que la valeur mathématiquement correcte pour une matrice tall est √(n/m). Tilde Research a d'abord formalisé cette correction sous le nom U-NorMuon, qui élimine complètement la mort neuronale à 340 millions de paramètres, avant de développer Aurora comme solution complète préservant à la fois l'uniformité des mises à jour et la précision du facteur polaire. La publication en code ouvert ouvre la voie à une adoption rapide dans les pipelines d'entraînement existants.

UELes équipes de recherche et labs ML français et européens entraînant des modèles avec Muon peuvent adopter Aurora directement pour éliminer la mort neuronale silencieuse et améliorer la qualité de leurs modèles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic