RechercheMarkTechPost · 31 mai 2026, 05:04· 2 min de lecture

Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x

Résumé IASource uniqueImpact UE Take éditorial

Trajectory, en collaboration avec le UC Berkeley Sky Lab et Anyscale, a publié un rapport technique détaillant une nouvelle infrastructure d'entraînement baptisée C-LoRA (Continuous Multi-LoRA Training), dont le code est entièrement disponible dans le dépôt GitHub NovaSky-AI/SkyRL. Le système permet de faire tourner plusieurs expériences d'entraînement en parallèle sur un même moteur d'inférence, chaque expérience disposant de son propre adaptateur LoRA dédié. Les résultats annoncés sont significatifs : un gain de débit expérimental de 2,81x par rapport à un framework d'entraînement classique à locataire unique, sans régression observée sur les récompenses d'entraînement. Les tests ont été conduits sur un nœud H200 unique avec le modèle Qwen3-4B-Instruct-2507, appliqué à des tâches d'apprentissage par renforcement sur GSM8K reformulées en usage d'outils.

Ce gain de performance cible un problème structurel de l'industrie : la quasi-totalité des infrastructures d'entraînement actuelles repose encore sur un cycle linéaire, collecte de données, entraînement, déploiement, qui prend des mois et produit des sauts discontinus de comportement pour les utilisateurs. C-LoRA vise à remplacer ce cycle par un apprentissage continu nourri des interactions de production en temps réel. L'architecture s'attaque concrètement à quatre inefficacités identifiées : les démarrages à froid coûteux (pouvant dépasser 30 minutes pour les grands modèles), la consommation mémoire excessive de l'apprentissage par renforcement sur des modèles de plus de 100 milliards de paramètres comme Qwen3.5-397B (qui peut nécessiter jusqu'à huit nœuds H200), la limitation à une seule expérience à la fois des stacks traditionnels, et la faible utilisation des GPU due aux temps d'attente mutuels entre le module d'entraînement et le moteur d'inférence.

L'intérêt plus large de ce travail s'inscrit dans une tendance de fond : rendre les modèles de langage capables d'apprendre en continu à partir de corrections humaines, de patterns observés en production, ou de retours d'opérateurs, sans nécessiter un cycle de réentraînement complet. La technique LoRA, qui gèle les poids du modèle de base et n'entraîne que de petits adaptateurs, réduit la consommation mémoire d'un ordre de grandeur tout en permettant la coexistence de plusieurs expériences simultanées. Côté inférence, le noyau SGMV de vLLM fusionne les opérations par adaptateur en un seul lancement GPU par étape de décodage, ce qui permet de mixer des tokens issus d'adaptateurs différents dans un même batch. Côté entraînement, la concurrence reste encore limitée à un adaptateur actif à la fois, les autres résidant en mémoire CPU, une limitation que Trajectory reconnaît et qui constitue la prochaine frontière technique pour l'équipe.

💬 L'analyse de Mathieu

2,81x de débit en plus sur un nœud H200, c'est pas rien. Ce qui m'intéresse surtout, c'est pas le chiffre, c'est l'architecture : faire tourner plusieurs expériences LoRA en parallèle sur le même moteur d'inférence, ça s'attaque enfin au vrai problème, ce cycle collect-train-deploy qui prend des mois et rend les mises à jour du modèle quasi invisibles pour les utilisateurs. Bon, sur le papier, parce que l'entraînement reste limité à un seul adaptateur actif à la fois pour l'instant, ce qui relativise un peu le "continu" dans le nom.

Dans nos dossiers

Qwen3

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

Apprentissage du raisonnement structuré par contrôle de trajectoire exploitable

Les chercheurs à l'origine du framework Ctrl-R proposent une nouvelle méthode pour entraîner les grands modèles de langage à raisonner de façon plus structurée et diversifiée. Le constat de départ est que ces modèles développent parfois spontanément des comportements de raisonnement, comme l'usage récurrent de mots tels que "wait" pour signaler une phase de vérification, mais que ces trajectoires de raisonnement complexes restent rares lorsqu'on les laisse émerger sans contrainte. Les méthodes d'apprentissage par renforcement (RL) classiques échouent généralement à garantir l'acquisition de comportements de raisonnement variés chez ces systèmes. Ctrl-R propose donc un contrôle ciblé et tractable des trajectoires, en forçant une exploration systématique de motifs de raisonnement spécifiques pendant l'entraînement par renforcement. Cette avancée compte pour l'industrie de l'IA car la qualité du raisonnement conditionne directement la fiabilité des modèles sur des tâches complexes, qu'il s'agisse de mathématiques, de programmation ou d'analyse. En orientant explicitement l'apprentissage vers une diversité de stratégies de vérification et de raisonnement plutôt que de laisser le hasard de l'échantillonnage décider, cette approche pourrait produire des modèles plus robustes et plus prévisibles, capables de mieux détecter leurs propres erreurs. Le problème que Ctrl-R cherche à résoudre s'inscrit dans un enjeu plus large de la recherche en IA : comment garantir qu'un modèle apprend réellement à raisonner, et non simplement à reproduire des schémas de surface issus de ses données d'entraînement. Les méthodes de RL actuelles, notamment celles popularisées par les modèles de raisonnement récents, peinent à structurer explicitement ce processus. En rendant les trajectoires de raisonnement contrôlables et donc mesurables, cette recherche ouvre la voie à des méthodes d'entraînement plus fines, où les développeurs pourraient cibler précisément les capacités cognitives qu'ils souhaitent renforcer chez leurs modèles.

RecherchePaper

1 source

2arXiv cs.RO

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

Des chercheurs ont publié sur arXiv une nouvelle approche de contrôle automatique pour les systèmes robotiques à dynamique incertaine, exploitant une propriété mathématique appelée platitude différentielle. Le contrôleur proposé repose sur une combinaison d'apprentissage machine et de commande prédictive par modèle (MPC), et se distingue des solutions existantes par sa capacité à gérer simultanément des systèmes à entrées multiples, des contraintes sur les commandes et des contraintes d'état dans l'espace plat. Techniquement, l'architecture repose sur une extension du système et une formulation diagonale par blocs du coût, permettant de résoudre le problème de contrôle en seulement deux optimisations convexes séquentielles, tout en offrant des garanties probabilistes de stabilité via un critère de Lyapunov. L'apport principal est d'ordre computationnel : la méthode atteint des performances comparables à un contrôleur MPC basé sur des processus gaussiens (GP-MPC), référence de l'état de l'art, mais en étant plusieurs fois plus rapide en temps de calcul. Pour les applications robotiques en temps réel, notamment les drones, les bras manipulateurs ou les véhicules autonomes, cette réduction de charge de calcul est déterminante. Elle permet d'envisager des boucles de contrôle plus rapides, des plateformes embarquées moins puissantes, ou des horizons de prédiction plus longs sans compromettre la réactivité du système. Les expériences sur matériel réel confirment un suivi de trajectoire compétitif, validant la transposabilité de l'approche au-delà de la simulation. La platitude différentielle est une propriété bien connue en automatique, exploitée depuis les années 1990 pour simplifier la planification de trajectoires dans des systèmes comme les quadrotors ou les voitures. Jusqu'ici, les travaux combinant flatness et apprentissage machine se heurtaient à des limitations majeures : absence de gestion des contraintes d'entrée, restriction aux systèmes mono-entrée, ou dépendance à une plateforme spécifique. Cette publication généralise l'approche à une classe beaucoup plus large de systèmes non linéaires, ouvrant la voie à des contrôleurs apprenants suffisamment efficaces pour quitter les bancs de simulation et équiper des robots industriels ou autonomes en conditions réelles.

RecherchePaper

1 source

3MarkTechPost

Skyfall AI lance MORPHEUS, un benchmark de simulation d'entreprise persistante qui rend l'apprentissage par renforcement continu nécessaire

Skyfall AI vient de publier MORPHEUS, une plateforme de simulation d'entreprise persistante conçue pour l'apprentissage par renforcement continu (continual reinforcement learning, CRL). Le système s'appuie sur la Big World Hypothesis formulée par Javed et Sutton en 2024, selon laquelle la complexité du monde réel dépasse toujours la capacité de représentation d'un agent, rendant l'environnement non stationnaire même à dynamique fixe. Chaque environnement MORPHEUS est un module TypeScript autonome qui exporte des Operational Descriptors définissant le déroulé pas à pas d'une capacité, une planification de simulation, des données d'amorçage et une documentation. Deux moteurs génèrent la non-stationnarité: un moteur d'injection de pannes qui insère onze types de défaillances (données manquantes, échecs de dépendances, limitations de débit) à quatre niveaux d'intensité allant de 5% à 30%, et un contrôleur de changement de configuration asynchrone qui modifie les préréglages de pannes et la demande à des horaires fixes, indépendamment de la boucle d'entraînement. La récompense composite combine trois signaux, pondérés respectivement à 0,5 pour les événements de panne et 0,25 chacun pour le registre financier et le débit de ressources, avec un plafond théorique de 0,50 par configuration. L'initialisation des politiques repose sur un pipeline en deux étapes: le modèle Gemini 3.1 Pro collecte des trajectoires via le framework ReAct, qui servent ensuite à affiner Qwen3-14B par apprentissage supervisé, avant que tous les algorithmes ne poursuivent l'entraînement en ligne avec PPO à partir de ce même point de départ commun. Cette approche répond à un problème concret: la quasi-totalité des benchmarks d'apprentissage par renforcement réinitialisent le monde simulé après chaque épisode, alors que les opérations réelles en entreprise ne se réinitialisent jamais. Un agent chargé de la logistique, de la planification ou de l'allocation de ressources doit composer avec des décisions passées qui influencent durablement la suite, des pannes imprévisibles et des politiques optimales qui deviennent obsolètes avec le temps. En forçant la persistance, la non-stationnarité et l'absence de politique fixe optimale, MORPHEUS cherche à mesurer si un agent sait réellement s'adapter en continu plutôt que simplement mémoriser une stratégie figée. C'est une distinction cruciale pour les entreprises qui envisagent de déployer des agents autonomes dans des environnements opérationnels réels, où les conditions changent constamment et où l'échec d'adaptation coûte cher. Pour évaluer cette capacité d'adaptation, l'équipe de recherche a développé un protocole à six métriques allant au-delà de la simple récompense cumulée: récompense par configuration, vitesse d'adaptation, oubli, temps de récupération, stabilité et écart de performance, complété par deux diagnostics supplémentaires mesurant l'avantage d'adaptation relatif et la plasticité via le rang effectif. La vitesse d'adaptation, présentée comme la métrique phare, compte le nombre d'étapes nécessaires pour que la récompense moyenne glissante atteigne la moitié du plafond théorique. Les chercheurs ont testé quatre familles d'algorithmes à partir du même point de départ SFT sur deux tâches: l'allocation dynamique de ressources sous dérive structurée, et la planification sous dérive avec effets différés. Cette initiative s'inscrit dans un mouvement plus large de la recherche en IA vers des benchmarks plus réalistes, capables de capturer la complexité et l'imprévisibilité des environnements de production, plutôt que des tâches simplifiées et statiques qui surestiment les capacités réelles des agents autonomes.

💬 Skyfall AI a raison sur un point: presque tous les benchmarks RL réinitialisent le monde à chaque épisode, alors qu'en entreprise rien ne redémarre jamais. MORPHEUS teste si un agent s'adapte en continu ou s'il mémorise juste une politique figée qui s'effondre à la première dérive, et c'est exactement la question qu'on esquive depuis des années sur les agents autonomes en prod. Reste à voir si les métriques tiennent au-delà du papier, mais l'angle est le bon: un agent qui ne sait pas oublier proprement coûtera plus cher qu'il ne rapporte.

RecherchePaper

1 source

4arXiv cs.RO

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic