Aller au contenu principal
RechercheApple Machine Learning20h· 1 min de lecture

Apprentissage du raisonnement structuré par contrôle de trajectoire exploitable

Source originale ↗·

Les chercheurs à l'origine du framework Ctrl-R proposent une nouvelle méthode pour entraîner les grands modèles de langage à raisonner de façon plus structurée et diversifiée. Le constat de départ est que ces modèles développent parfois spontanément des comportements de raisonnement, comme l'usage récurrent de mots tels que "wait" pour signaler une phase de vérification, mais que ces trajectoires de raisonnement complexes restent rares lorsqu'on les laisse émerger sans contrainte. Les méthodes d'apprentissage par renforcement (RL) classiques échouent généralement à garantir l'acquisition de comportements de raisonnement variés chez ces systèmes. Ctrl-R propose donc un contrôle ciblé et tractable des trajectoires, en forçant une exploration systématique de motifs de raisonnement spécifiques pendant l'entraînement par renforcement.

Cette avancée compte pour l'industrie de l'IA car la qualité du raisonnement conditionne directement la fiabilité des modèles sur des tâches complexes, qu'il s'agisse de mathématiques, de programmation ou d'analyse. En orientant explicitement l'apprentissage vers une diversité de stratégies de vérification et de raisonnement plutôt que de laisser le hasard de l'échantillonnage décider, cette approche pourrait produire des modèles plus robustes et plus prévisibles, capables de mieux détecter leurs propres erreurs.

Le problème que Ctrl-R cherche à résoudre s'inscrit dans un enjeu plus large de la recherche en IA : comment garantir qu'un modèle apprend réellement à raisonner, et non simplement à reproduire des schémas de surface issus de ses données d'entraînement. Les méthodes de RL actuelles, notamment celles popularisées par les modèles de raisonnement récents, peinent à structurer explicitement ce processus. En rendant les trajectoires de raisonnement contrôlables et donc mesurables, cette recherche ouvre la voie à des méthodes d'entraînement plus fines, où les développeurs pourraient cibler précisément les capacités cognitives qu'ils souhaitent renforcer chez leurs modèles.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux
1arXiv cs.RO 

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Des chercheurs ont présenté Affordance-R1, un nouveau modèle d'intelligence artificielle conçu pour permettre aux robots de déterminer précisément comment saisir et manipuler des objets dans leur environnement. Publiée sur arXiv (référence 2508.06206), cette étude introduit le premier cadre unifié d'affordance grounding combinant l'apprentissage par renforcement avec un raisonnement de type chaîne de pensée (Chain-of-Thought, CoT). Le système s'appuie sur une variante de l'optimisation politique appelée GRPO (Group Relative Policy Optimization) et a été entraîné sur un nouveau jeu de données spécialement constitué pour l'occasion, baptisé ReasonAff. Malgré l'absence de données de raisonnement explicite durant l'entraînement, le modèle parvient à une généralisation zéro-shot convaincante et développe des capacités de raisonnement émergentes lors de l'inférence. Le code et le jeu de données sont disponibles publiquement sur GitHub. Cette avancée concerne directement la robotique incarnée, l'interaction humain-robot et la manipulation d'objets en environnement ouvert. L'enjeu central est la capacité d'un robot à identifier, sans entraînement préalable sur un objet donné, quelle zone précise saisir ou activer pour accomplir une tâche, par exemple tenir une tasse par son anse ou appuyer sur le bouton d'un appareil. Jusqu'ici, les modèles existants échouaient à transférer cette compréhension d'un objet à un autre, faute d'un raisonnement structuré. Affordance-R1 comble ce manque en permettant une généralisation hors-domaine (OOD), ce qui pourrait accélérer le déploiement de robots polyvalents dans des environnements industriels, domestiques ou médicaux. Le concept d'affordance, emprunté à la psychologie cognitive, désigne les actions qu'un objet permet naturellement à un agent. Dans le domaine de la robotique IA, le défi est d'apprendre à un modèle à percevoir ces possibilités d'action de façon générique, sans dépendre d'une liste exhaustive d'objets connus. Les approches précédentes reposaient sur de la supervision directe, limitant leur adaptabilité face à des situations inédites. L'utilisation du GRPO, une méthode d'apprentissage par renforcement popularisée notamment par DeepSeek, représente ici un changement de paradigme : plutôt que d'enseigner explicitement le raisonnement, on récompense le modèle selon des critères de format, de perception et de cognition. Cette approche rejoint une tendance plus large visant à doter les grands modèles multimodaux d'une véritable capacité de planification physique dans le monde réel.

RecherchePaper
1 source
NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement
2NVIDIA AI Blog 

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

NVIDIA et Ineffable Intelligence, le laboratoire d'IA londonien fondé par David Silver, l'architecte d'AlphaGo, ont annoncé un partenariat technique approfondi pour concevoir l'infrastructure nécessaire à l'apprentissage par renforcement à grande échelle. Des ingénieurs des deux sociétés travaillent conjointement sur la construction d'un pipeline d'entraînement optimisé, en démarrant sur la plateforme NVIDIA Grace Blackwell et en préparant l'intégration de la prochaine architecture Vera Rubin, encore inédite. Jensen Huang, fondateur et PDG de NVIDIA, a qualifié les systèmes d'apprentissage continu par expérience de "prochaine frontière de l'IA", tandis que Silver, sorti du mode furtif la semaine dernière seulement avec Ineffable Intelligence, entend pousser ce paradigme bien au-delà de ses applications actuelles. L'enjeu technique est significatif. Contrairement au pré-entraînement classique, qui consomme un jeu de données fixe de textes et d'images humaines, l'apprentissage par renforcement génère ses propres données en temps réel : l'agent agit, observe les résultats, évalue et se met à jour en boucle serrée. Ce mode de fonctionnement impose des contraintes très différentes sur les interconnexions, la bande passante mémoire et l'inférence. S'y ajoutent des formes d'expérience potentiellement étrangères au langage humain, ce qui pourrait nécessiter des architectures de modèles et des algorithmes d'entraînement entièrement nouveaux. Résoudre ces contraintes à l'échelle est ce que visent conjointement les deux équipes. David Silver est l'une des figures centrales de l'apprentissage par renforcement depuis des décennies : il a co-développé DQN chez DeepMind avant de concevoir AlphaGo, le premier programme à battre un champion du monde de go en 2016. Son raisonnement est direct : les chercheurs ont "largement résolu le problème facile de l'IA", soit apprendre à partir de ce que les humains savent déjà, mais le vrai défi reste de construire des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. Ce virage, de la donnée humaine vers la simulation et l'expérience autonome, est au coeur de la mission d'Ineffable Intelligence. Si le partenariat tient ses promesses, il pourrait débloquer une nouvelle génération d'agents capables de progresser dans des environnements complexes sans plafond de données humaines, ouvrant potentiellement des découvertes dans des domaines allant de la recherche scientifique à la robotique.

RecherchePaper
1 source
Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints
3arXiv cs.RO 

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

Des chercheurs ont publié sur arXiv une nouvelle approche de contrôle automatique pour les systèmes robotiques à dynamique incertaine, exploitant une propriété mathématique appelée platitude différentielle. Le contrôleur proposé repose sur une combinaison d'apprentissage machine et de commande prédictive par modèle (MPC), et se distingue des solutions existantes par sa capacité à gérer simultanément des systèmes à entrées multiples, des contraintes sur les commandes et des contraintes d'état dans l'espace plat. Techniquement, l'architecture repose sur une extension du système et une formulation diagonale par blocs du coût, permettant de résoudre le problème de contrôle en seulement deux optimisations convexes séquentielles, tout en offrant des garanties probabilistes de stabilité via un critère de Lyapunov. L'apport principal est d'ordre computationnel : la méthode atteint des performances comparables à un contrôleur MPC basé sur des processus gaussiens (GP-MPC), référence de l'état de l'art, mais en étant plusieurs fois plus rapide en temps de calcul. Pour les applications robotiques en temps réel, notamment les drones, les bras manipulateurs ou les véhicules autonomes, cette réduction de charge de calcul est déterminante. Elle permet d'envisager des boucles de contrôle plus rapides, des plateformes embarquées moins puissantes, ou des horizons de prédiction plus longs sans compromettre la réactivité du système. Les expériences sur matériel réel confirment un suivi de trajectoire compétitif, validant la transposabilité de l'approche au-delà de la simulation. La platitude différentielle est une propriété bien connue en automatique, exploitée depuis les années 1990 pour simplifier la planification de trajectoires dans des systèmes comme les quadrotors ou les voitures. Jusqu'ici, les travaux combinant flatness et apprentissage machine se heurtaient à des limitations majeures : absence de gestion des contraintes d'entrée, restriction aux systèmes mono-entrée, ou dépendance à une plateforme spécifique. Cette publication généralise l'approche à une classe beaucoup plus large de systèmes non linéaires, ouvrant la voie à des contrôleurs apprenants suffisamment efficaces pour quitter les bancs de simulation et équiper des robots industriels ou autonomes en conditions réelles.

RecherchePaper
1 source
Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x
4MarkTechPost 

Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x

Trajectory, en collaboration avec le UC Berkeley Sky Lab et Anyscale, a publié un rapport technique détaillant une nouvelle infrastructure d'entraînement baptisée C-LoRA (Continuous Multi-LoRA Training), dont le code est entièrement disponible dans le dépôt GitHub NovaSky-AI/SkyRL. Le système permet de faire tourner plusieurs expériences d'entraînement en parallèle sur un même moteur d'inférence, chaque expérience disposant de son propre adaptateur LoRA dédié. Les résultats annoncés sont significatifs : un gain de débit expérimental de 2,81x par rapport à un framework d'entraînement classique à locataire unique, sans régression observée sur les récompenses d'entraînement. Les tests ont été conduits sur un nœud H200 unique avec le modèle Qwen3-4B-Instruct-2507, appliqué à des tâches d'apprentissage par renforcement sur GSM8K reformulées en usage d'outils. Ce gain de performance cible un problème structurel de l'industrie : la quasi-totalité des infrastructures d'entraînement actuelles repose encore sur un cycle linéaire, collecte de données, entraînement, déploiement, qui prend des mois et produit des sauts discontinus de comportement pour les utilisateurs. C-LoRA vise à remplacer ce cycle par un apprentissage continu nourri des interactions de production en temps réel. L'architecture s'attaque concrètement à quatre inefficacités identifiées : les démarrages à froid coûteux (pouvant dépasser 30 minutes pour les grands modèles), la consommation mémoire excessive de l'apprentissage par renforcement sur des modèles de plus de 100 milliards de paramètres comme Qwen3.5-397B (qui peut nécessiter jusqu'à huit nœuds H200), la limitation à une seule expérience à la fois des stacks traditionnels, et la faible utilisation des GPU due aux temps d'attente mutuels entre le module d'entraînement et le moteur d'inférence. L'intérêt plus large de ce travail s'inscrit dans une tendance de fond : rendre les modèles de langage capables d'apprendre en continu à partir de corrections humaines, de patterns observés en production, ou de retours d'opérateurs, sans nécessiter un cycle de réentraînement complet. La technique LoRA, qui gèle les poids du modèle de base et n'entraîne que de petits adaptateurs, réduit la consommation mémoire d'un ordre de grandeur tout en permettant la coexistence de plusieurs expériences simultanées. Côté inférence, le noyau SGMV de vLLM fusionne les opérations par adaptateur en un seul lancement GPU par étape de décodage, ce qui permet de mixer des tokens issus d'adaptateurs différents dans un même batch. Côté entraînement, la concurrence reste encore limitée à un adaptateur actif à la fois, les autres résidant en mémoire CPU, une limitation que Trajectory reconnaît et qui constitue la prochaine frontière technique pour l'équipe.

💬 2,81x de débit en plus sur un nœud H200, c'est pas rien. Ce qui m'intéresse surtout, c'est pas le chiffre, c'est l'architecture : faire tourner plusieurs expériences LoRA en parallèle sur le même moteur d'inférence, ça s'attaque enfin au vrai problème, ce cycle collect-train-deploy qui prend des mois et rend les mises à jour du modèle quasi invisibles pour les utilisateurs. Bon, sur le papier, parce que l'entraînement reste limité à un seul adaptateur actif à la fois pour l'instant, ce qui relativise un peu le "continu" dans le nom.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic