Aller au contenu principal
Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent
RechercheApple Machine Learning1sem

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié des travaux sur une nouvelle approche d'optimisation du raisonnement dans les grands modèles de langage (LLM), baptisée "Adaptive Thinking". Le principe : permettre aux modèles d'ajuster dynamiquement leur budget de calcul selon la complexité réelle d'une requête, plutôt que d'appliquer un niveau fixe de raisonnement à chaque réponse. L'étude exploite la technique du chain-of-thought (CoT), qui consiste à générer une chaîne de raisonnement intermédiaire avant de produire une réponse, et introduit la notion de raisonnement dans l'espace latent, une représentation interne au modèle.

L'enjeu est directement économique et qualitatif : allouer trop de capacité de calcul à des questions simples est un gaspillage ; en allouer trop peu à des questions complexes dégrade la performance. Les chercheurs utilisent la "self-consistency", c'est-à-dire le degré d'accord entre plusieurs chemins de raisonnement parallèles, comme indicateur proxy de la nécessité réelle de raisonner. Cette métrique permet au modèle de détecter automatiquement si une question mérite un effort cognitif étendu ou une réponse directe.

Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires depuis l'émergence des modèles de type "reasoning" comme o1 d'OpenAI ou DeepSeek-R1 : comment rendre le raisonnement à l'inférence à la fois plus puissant et plus efficient. Trouver le bon équilibre entre budget de calcul et performance est devenu un axe de compétition majeur, notamment pour les applications en temps réel où la latence et le coût par requête sont critiques.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux
1arXiv cs.RO 

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Des chercheurs ont présenté Affordance-R1, un nouveau modèle d'intelligence artificielle conçu pour permettre aux robots de déterminer précisément comment saisir et manipuler des objets dans leur environnement. Publiée sur arXiv (référence 2508.06206), cette étude introduit le premier cadre unifié d'affordance grounding combinant l'apprentissage par renforcement avec un raisonnement de type chaîne de pensée (Chain-of-Thought, CoT). Le système s'appuie sur une variante de l'optimisation politique appelée GRPO (Group Relative Policy Optimization) et a été entraîné sur un nouveau jeu de données spécialement constitué pour l'occasion, baptisé ReasonAff. Malgré l'absence de données de raisonnement explicite durant l'entraînement, le modèle parvient à une généralisation zéro-shot convaincante et développe des capacités de raisonnement émergentes lors de l'inférence. Le code et le jeu de données sont disponibles publiquement sur GitHub. Cette avancée concerne directement la robotique incarnée, l'interaction humain-robot et la manipulation d'objets en environnement ouvert. L'enjeu central est la capacité d'un robot à identifier, sans entraînement préalable sur un objet donné, quelle zone précise saisir ou activer pour accomplir une tâche, par exemple tenir une tasse par son anse ou appuyer sur le bouton d'un appareil. Jusqu'ici, les modèles existants échouaient à transférer cette compréhension d'un objet à un autre, faute d'un raisonnement structuré. Affordance-R1 comble ce manque en permettant une généralisation hors-domaine (OOD), ce qui pourrait accélérer le déploiement de robots polyvalents dans des environnements industriels, domestiques ou médicaux. Le concept d'affordance, emprunté à la psychologie cognitive, désigne les actions qu'un objet permet naturellement à un agent. Dans le domaine de la robotique IA, le défi est d'apprendre à un modèle à percevoir ces possibilités d'action de façon générique, sans dépendre d'une liste exhaustive d'objets connus. Les approches précédentes reposaient sur de la supervision directe, limitant leur adaptabilité face à des situations inédites. L'utilisation du GRPO, une méthode d'apprentissage par renforcement popularisée notamment par DeepSeek, représente ici un changement de paradigme : plutôt que d'enseigner explicitement le raisonnement, on récompense le modèle selon des critères de format, de perception et de cognition. Cette approche rejoint une tendance plus large visant à doter les grands modèles multimodaux d'une véritable capacité de planification physique dans le monde réel.

RecherchePaper
1 source
LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs
2Apple Machine Learning 

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

Des chercheurs ont publié LaDiR (Latent Diffusion Reasoner), un nouveau cadre de raisonnement qui couple les grands modèles de langage existants à des modèles de diffusion latente. L'objectif : dépasser les limites inhérentes à la génération autoreégressive, en introduisant une étape de raffinement itératif dans un espace de représentation continu structuré, avant que le modèle ne produise sa réponse finale en texte. Le problème visé est fondamental. Lorsqu'un LLM génère token par token, il ne peut pas revenir modifier ce qu'il a déjà écrit, une contrainte qui pénalise les tâches de raisonnement complexes où la solution exige d'explorer plusieurs pistes et de corriger des erreurs en cours de route. LaDiR contourne cette limite en faisant "mûrir" le raisonnement dans un espace latent continu, via un processus de diffusion, avant de le transcrire en langage naturel. Cela permet une exploration plus diverse et un affinement global de la chaîne de pensée, impossible avec le décodage autorégressif classique. L'approche s'inscrit dans une vague de recherches cherchant à améliorer le raisonnement des LLMs au-delà du simple chain-of-thought (CoT), popularisé notamment par les modèles o1 d'OpenAI et R1 de DeepSeek. Contrairement aux méthodes qui allongent simplement le texte intermédiaire, LaDiR exploite l'espace continu des représentations pour structurer ce raisonnement de façon plus riche. La compatibilité avec des modèles existants, sans réentraînement complet, constitue un avantage pratique notable si les résultats se confirment sur des benchmarks de référence.

RecherchePaper
1 source
Entraînement par anticipation latente pour les Transformers
3Apple Machine Learning 

Entraînement par anticipation latente pour les Transformers

Des chercheurs ont présenté une nouvelle méthode d'entraînement pour les modèles de langage appelée « Latent Lookahead Training », acceptée au workshop ICLR 2026 sur la réflexion latente et implicite. Cette approche s'attaque à une limitation fondamentale des modèles autorégressifs actuels : la prédiction token par token, qui oblige le modèle à se figer sur un choix à chaque étape sans pouvoir explorer plusieurs continuations possibles. De plus, le calcul est distribué de manière uniforme entre tous les tokens, même quand certains sont bien plus complexes que d'autres. Cette contrainte n'est pas anodine — elle bride directement la capacité des modèles à planifier ou à « réfléchir » avant de s'engager dans une direction. En permettant au modèle d'anticiper dans un espace latent avant de produire chaque token, le Latent Lookahead vise à allouer plus de calcul là où c'est nécessaire et à ouvrir la porte à une forme de délibération interne, sans passer par le Chain-of-Thought explicite. La recherche s'inscrit dans un mouvement plus large visant à dépasser les limites du raisonnement en chaîne visible, en explorant comment les modèles peuvent développer une forme de pensée implicite plus flexible et efficace.

RecherchePaper
1 source
GenAssets : génération d'assets 3D en espace latent
4arXiv cs.RO 

GenAssets : génération d'assets 3D en espace latent

Des chercheurs ont présenté GenAssets, une nouvelle méthode de génération d'objets 3D destinés aux simulateurs de conduite autonome, décrite dans un article arXiv publié fin avril 2026. Le système repose sur un modèle de diffusion latente 3D capable d'apprendre directement depuis des données LiDAR et caméra collectées en conditions réelles, pour ensuite générer des véhicules et piétons en trois dimensions avec une géométrie et une apparence complètes. L'approche dite "reconstruire-puis-générer" fonctionne en deux temps : elle commence par exploiter un rendu neural conscient des occlusions, entraîné sur plusieurs scènes, pour construire un espace latent de haute qualité représentant les objets observés ; un modèle de diffusion opère ensuite sur cet espace pour produire des assets variés et réalistes. Les auteurs affirment que GenAssets surpasse les méthodes existantes de reconstruction et de génération sur des benchmarks standardisés. La simulation multi-capteurs est au cœur du développement sûr des systèmes de conduite autonome : sans assets 3D diversifiés et réalistes, il est impossible de tester les véhicules dans des situations rares ou dangereuses à reproduire dans la réalité. Le problème central que GenAssets résout est celui des données en conditions sauvages ("in-the-wild"), où les acteurs de la scène, autres voitures, cyclistes, piétons, sont souvent capturés sous des angles limités et partiellement masqués par d'autres objets. Les méthodes classiques de reconstruction par rendu neural échouent à produire des assets utilisables depuis des points de vue différents de l'observation d'origine, ce qui restreint fortement leur utilité en simulation. GenAssets débloque une création de contenu scalable et diverse, directement exploitable pour entraîner et valider des systèmes d'autonomie. La génération d'environnements synthétiques de haute fidélité est un enjeu stratégique pour des acteurs comme Waymo, Tesla, Cruise ou Mobileye, qui dépendent de milliards de kilomètres simulés pour compenser le coût prohibitif des tests réels. Les approches par diffusion ont connu une montée en puissance spectaculaire depuis 2022, mais leur application aux scènes de conduite réelles restait freinée par la rareté et la partialité des observations terrain. GenAssets ouvre une voie vers des pipelines entièrement automatisés de création d'assets, alimentés directement par les données collectées par les flottes de véhicules, ce qui pourrait significativement accélérer les cycles de développement et d'homologation des systèmes autonomes.

UELes constructeurs et équipementiers européens du secteur automobile pourraient bénéficier indirectement de cette avancée pour améliorer leurs pipelines de simulation en conduite autonome.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour