RechercheAmazon Science7sem

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Résumé IASource uniqueImpact UE

Le fine-tuning de grands modèles de langage consomme des ressources GPU considérables, mais une technique appelée LoRA (Low-Rank Adaptation) permet de réduire drastiquement ces coûts. Plutôt que de mettre à jour l'ensemble des paramètres d'un modèle, LoRA gèle les poids d'origine et insère de petites matrices légères — appelées adaptateurs — dans des sous-couches spécifiques. Une nouvelle étude d'ablation publiée par des chercheurs d'Amazon apporte des réponses concrètes à une question centrale : où exactement placer ces adaptateurs pour maximiser l'efficacité sans sacrifier la précision ?

L'enjeu est loin d'être théorique. Le choix des modules cibles influence directement la latence d'inférence, la consommation mémoire et les coûts d'entraînement. Cibler trop de modules améliore les performances mais alourdit le système ; en choisir trop peu risque de brider la capacité d'adaptation du modèle. Trouver le bon équilibre est donc critique pour les entreprises qui déploient des modèles personnalisés à grande échelle, notamment dans des contextes de serving à la demande ou de partage de modèle de base entre plusieurs GPU.

En utilisant le modèle multimodal Amazon Nova 2.0 Lite comme base, les chercheurs Rushil Anirudh, Anjie Fang et Bhoomit Vasani ont mené une étude systématique de l'impact de chaque module de l'architecture Transformer. Leur conclusion est nette : le module o_proj — une transformation linéaire qui fusionne les représentations issues des différentes têtes d'attention en une forme cohérente pour le reste du modèle — offre le meilleur compromis efficacité/précision lorsqu'un seul adaptateur est utilisé. Ce module s'avère donc être le point d'insertion optimal pour la grande majorité des cas d'usage clients.

Ces résultats ouvrent la voie à des configurations standardisées de LoRA qui pourraient s'appliquer sans ajustement manuel à un large spectre de tâches. Pour les équipes ML déployant des dizaines de modèles spécialisés, disposer d'une configuration par défaut validée empiriquement représente un gain opérationnel significatif — réduisant à la fois le temps de configuration et les coûts d'infrastructure liés à l'entraînement et à l'inférence.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

DSO : optimisation par pilotage direct pour la réduction des biais

Des chercheurs ont présenté une nouvelle méthode appelée DSO (Direct Steering Optimization) visant à réduire les biais démographiques dans les modèles de vision-langage (VLM). Ces systèmes d'IA, utilisés pour décrire ou interpréter des images, tendent à associer certains rôles professionnels à des attributs perçus comme le genre ou l'origine ethnique : un modèle peut ainsi refuser d'identifier une femme comme médecin, ou favoriser systématiquement certains profils dans des scénarios de sélection. DSO propose un mécanisme d'optimisation directe permettant de corriger ces biais tout en laissant à l'utilisateur ou au déployeur la possibilité de calibrer le niveau de correction selon ses besoins propres. L'enjeu est concret : les VLM sont déjà intégrés dans des outils d'assistance aux personnes malvoyantes, des systèmes de recrutement automatisé, ou des plateformes de triage médical. Un biais non corrigé dans ces contextes peut produire des discriminations réelles et documentées. Ce que DSO apporte en plus des approches existantes, c'est la capacité à ajuster le curseur entre performance globale du modèle et degré de neutralité démographique, évitant le compromis brutal qui forçait jusqu'ici les équipes à sacrifier l'un pour l'autre. La question des biais dans les modèles multimodaux est devenue centrale depuis que les VLM ont quitté les laboratoires pour des déploiements à grande échelle. Des travaux antérieurs ont montré que des modèles comme CLIP ou LLaVA reproduisent et amplifient des stéréotypes présents dans leurs données d'entraînement. DSO s'inscrit dans une dynamique de recherche active autour de l'alignement et de l'équité algorithmique, un champ où la pression réglementaire, notamment en Europe avec l'AI Act, pousse les entreprises à documenter et corriger ces comportements avant tout déploiement commercial.

UELa méthode DSO fournit un levier technique concret pour répondre aux exigences de l'AI Act européen, qui impose aux entreprises de documenter et corriger les biais dans les systèmes d'IA à haut risque avant tout déploiement commercial.

RecherchePaper

1 source

2Apple Machine Learning

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper

1 source

3arXiv cs.RO

Algorithme de beam search efficace pour la perception active en robotique mobile

Des chercheurs ont publié sur arXiv un algorithme de recherche en faisceau conçu pour améliorer la perception active dans les robots mobiles autonomes. L'article, référencé arXiv:2604.23327, présente trois contributions principales : un algorithme de recherche en faisceau par nœud (NBS, pour Node-wise Beam Search), une nouvelle métrique appelée "gain espéré", et une méthode de construction de graphe baptisée RRAG (Rapidly-exploring Random Annulus Graph). Lors de benchmarks extensifs, la combinaison NBS et RRAG surpasse les algorithmes de l'état de l'art d'au moins 20 % sur une ou plusieurs des trois tâches de perception active testées. L'approche a également été validée sur des plateformes robotiques réelles dans différents scénarios. La perception active est un problème central en robotique autonome : le robot doit décider où se déplacer et quoi observer pour collecter les informations les plus utiles à sa mission. Les méthodes actuelles se heurtent à un dilemme : soit elles résolvent un problème de voyageur de commerce coûteux en calcul, soit elles adoptent une formulation plus rapide mais trop contrainte. Le nouvel algorithme NBS contourne ce compromis en conservant les B meilleurs candidats par nœud plutôt que globalement, ce qui réduit la sensibilité aux optima locaux et améliore l'exploration de l'espace de solutions sans exploser le coût computationnel. La robotique autonome souffre depuis longtemps d'un fossé entre les méthodes théoriquement optimales, trop lentes pour opérer en temps réel, et les heuristiques rapides mais peu fiables dans des environnements encombrés. En introduisant le concept de frontières dans le critère de sélection de chemin via la métrique de gain espéré, les auteurs offrent un meilleur équilibre entre exploration et exploitation, deux impératifs souvent antagonistes dans la navigation autonome. Le RRAG, quant à lui, garantit la connectivité du graphe même dans les espaces complexes grâce à un planificateur local de repli. Ces travaux ouvrent la voie à des robots de livraison, d'inspection industrielle ou de cartographie capables de planifier leurs trajectoires de manière plus autonome et robuste.

RechercheOpinion

1 source

4arXiv cs.RO

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour