Aller au contenu principal
RechercheMarkTechPost3h

Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Trajectory, en collaboration avec le UC Berkeley Sky Lab et Anyscale, a publié un rapport technique détaillant une nouvelle infrastructure d'entraînement baptisée C-LoRA (Continuous Multi-LoRA Training), dont le code est entièrement disponible dans le dépôt GitHub NovaSky-AI/SkyRL. Le système permet de faire tourner plusieurs expériences d'entraînement en parallèle sur un même moteur d'inférence, chaque expérience disposant de son propre adaptateur LoRA dédié. Les résultats annoncés sont significatifs : un gain de débit expérimental de 2,81x par rapport à un framework d'entraînement classique à locataire unique, sans régression observée sur les récompenses d'entraînement. Les tests ont été conduits sur un nœud H200 unique avec le modèle Qwen3-4B-Instruct-2507, appliqué à des tâches d'apprentissage par renforcement sur GSM8K reformulées en usage d'outils.

Ce gain de performance cible un problème structurel de l'industrie : la quasi-totalité des infrastructures d'entraînement actuelles repose encore sur un cycle linéaire, collecte de données, entraînement, déploiement, qui prend des mois et produit des sauts discontinus de comportement pour les utilisateurs. C-LoRA vise à remplacer ce cycle par un apprentissage continu nourri des interactions de production en temps réel. L'architecture s'attaque concrètement à quatre inefficacités identifiées : les démarrages à froid coûteux (pouvant dépasser 30 minutes pour les grands modèles), la consommation mémoire excessive de l'apprentissage par renforcement sur des modèles de plus de 100 milliards de paramètres comme Qwen3.5-397B (qui peut nécessiter jusqu'à huit nœuds H200), la limitation à une seule expérience à la fois des stacks traditionnels, et la faible utilisation des GPU due aux temps d'attente mutuels entre le module d'entraînement et le moteur d'inférence.

L'intérêt plus large de ce travail s'inscrit dans une tendance de fond : rendre les modèles de langage capables d'apprendre en continu à partir de corrections humaines, de patterns observés en production, ou de retours d'opérateurs, sans nécessiter un cycle de réentraînement complet. La technique LoRA, qui gèle les poids du modèle de base et n'entraîne que de petits adaptateurs, réduit la consommation mémoire d'un ordre de grandeur tout en permettant la coexistence de plusieurs expériences simultanées. Côté inférence, le noyau SGMV de vLLM fusionne les opérations par adaptateur en un seul lancement GPU par étape de décodage, ce qui permet de mixer des tokens issus d'adaptateurs différents dans un même batch. Côté entraînement, la concurrence reste encore limitée à un adaptateur actif à la fois, les autres résidant en mémoire CPU, une limitation que Trajectory reconnaît et qui constitue la prochaine frontière technique pour l'équipe.

💬 Le point de vue du dev

2,81x de débit en plus sur un nœud H200, c'est pas rien. Ce qui m'intéresse surtout, c'est pas le chiffre, c'est l'architecture : faire tourner plusieurs expériences LoRA en parallèle sur le même moteur d'inférence, ça s'attaque enfin au vrai problème, ce cycle collect-train-deploy qui prend des mois et rend les mises à jour du modèle quasi invisibles pour les utilisateurs. Bon, sur le papier, parce que l'entraînement reste limité à un seul adaptateur actif à la fois pour l'instant, ce qui relativise un peu le "continu" dans le nom.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints
1arXiv cs.RO 

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

Des chercheurs ont publié sur arXiv une nouvelle approche de contrôle automatique pour les systèmes robotiques à dynamique incertaine, exploitant une propriété mathématique appelée platitude différentielle. Le contrôleur proposé repose sur une combinaison d'apprentissage machine et de commande prédictive par modèle (MPC), et se distingue des solutions existantes par sa capacité à gérer simultanément des systèmes à entrées multiples, des contraintes sur les commandes et des contraintes d'état dans l'espace plat. Techniquement, l'architecture repose sur une extension du système et une formulation diagonale par blocs du coût, permettant de résoudre le problème de contrôle en seulement deux optimisations convexes séquentielles, tout en offrant des garanties probabilistes de stabilité via un critère de Lyapunov. L'apport principal est d'ordre computationnel : la méthode atteint des performances comparables à un contrôleur MPC basé sur des processus gaussiens (GP-MPC), référence de l'état de l'art, mais en étant plusieurs fois plus rapide en temps de calcul. Pour les applications robotiques en temps réel, notamment les drones, les bras manipulateurs ou les véhicules autonomes, cette réduction de charge de calcul est déterminante. Elle permet d'envisager des boucles de contrôle plus rapides, des plateformes embarquées moins puissantes, ou des horizons de prédiction plus longs sans compromettre la réactivité du système. Les expériences sur matériel réel confirment un suivi de trajectoire compétitif, validant la transposabilité de l'approche au-delà de la simulation. La platitude différentielle est une propriété bien connue en automatique, exploitée depuis les années 1990 pour simplifier la planification de trajectoires dans des systèmes comme les quadrotors ou les voitures. Jusqu'ici, les travaux combinant flatness et apprentissage machine se heurtaient à des limitations majeures : absence de gestion des contraintes d'entrée, restriction aux systèmes mono-entrée, ou dépendance à une plateforme spécifique. Cette publication généralise l'approche à une classe beaucoup plus large de systèmes non linéaires, ouvrant la voie à des contrôleurs apprenants suffisamment efficaces pour quitter les bancs de simulation et équiper des robots industriels ou autonomes en conditions réelles.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
2arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source
Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM
3MarkTechPost 

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
4MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour