LaDiR : la diffusion latente améliore le…

Les traces de raisonnement variées améliorent la prise de décision des LLM

43

1Amazon Science

Les traces de raisonnement variées améliorent la prise de décision des LLM

Des chercheurs ont présenté à l'ICLR 2025 une nouvelle méthode d'entraînement des grands modèles de langage (LLM) qui améliore significativement leurs capacités de raisonnement. Baptisée SSFT (Set-Supervised Fine Tuning), cette approche consiste à entraîner un modèle sur plusieurs chemins de raisonnement distincts pour un même problème, plutôt que sur une seule trace humaine vérifiée comme c'est l'usage avec le fine-tuning supervisé classique. Pour guider le modèle, les chercheurs introduisent des "tokens de branchement global", des marqueurs spéciaux insérés pendant la phase d'entraînement post-initial, chacun activant un mode de raisonnement différent. En combinant SSFT avec une couche d'apprentissage par renforcement qu'ils nomment GFPO (Global Forking Policy Optimization), ils obtiennent des gains de 5 à 7 % en précision sur les benchmarks standards, mesurés en pass@1, c'est-à-dire la probabilité qu'une réponse unique générée soit correcte. L'enjeu est de taille : la capacité de raisonnement est devenue le principal critère de différenciation entre les LLM de pointe. Or, la méthode d'entraînement dominante, fournir au modèle une seule trace de raisonnement par exemple, plafonne naturellement ce que le modèle peut apprendre. Le problème identifié avec les approches naïves de raisonnement parallèle est le "mode collapse" : quand plusieurs stratégies sont possibles, le modèle finit par toutes les converger vers le même comportement. SSFT résout cela via un appariement bipartite qui associe chaque trace à un token de contrôle spécifique, forçant le modèle à maintenir des stratégies réellement distinctes. Le GFPO ajoute ensuite une logique de sélection : le modèle apprend non seulement plusieurs modes de raisonnement, mais aussi lequel employer selon le contexte du problème posé. Cette capacité de méta-décision, absente du fine-tuning supervisé, est précisément ce qui génère les gains observés. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser les limites du scaling en données brutes, en explorant comment structurer l'entraînement pour maximiser la diversité et la qualité du raisonnement. Des techniques comme la self-consistency, agréger plusieurs chemins de raisonnement pour voter la meilleure réponse, ont montré que la diversité de raisonnement améliore la robustesse des LLM à l'évaluation. La question logique était donc de savoir si cette diversité pouvait être intégrée dès l'entraînement. Les traces multiples nécessaires à SSFT peuvent être obtenues de plusieurs façons : en interrogeant plusieurs modèles enseignants, en échantillonnant un même modèle avec des températures variées, ou en agrégeant des solutions de sources hétérogènes. Cette flexibilité rend la méthode applicable sans infrastructure propriétaire, ce qui devrait faciliter son adoption dans la communauté de recherche et potentiellement chez les acteurs industriels cherchant à améliorer leurs modèles sans augmenter davantage la taille des données d'entraînement.

RecherchePaper

1 source

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

42

2Apple Machine Learning

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

Des chercheurs ont publié des travaux sur une nouvelle approche d'optimisation du raisonnement dans les grands modèles de langage (LLM), baptisée "Adaptive Thinking". Le principe : permettre aux modèles d'ajuster dynamiquement leur budget de calcul selon la complexité réelle d'une requête, plutôt que d'appliquer un niveau fixe de raisonnement à chaque réponse. L'étude exploite la technique du chain-of-thought (CoT), qui consiste à générer une chaîne de raisonnement intermédiaire avant de produire une réponse, et introduit la notion de raisonnement dans l'espace latent, une représentation interne au modèle. L'enjeu est directement économique et qualitatif : allouer trop de capacité de calcul à des questions simples est un gaspillage ; en allouer trop peu à des questions complexes dégrade la performance. Les chercheurs utilisent la "self-consistency", c'est-à-dire le degré d'accord entre plusieurs chemins de raisonnement parallèles, comme indicateur proxy de la nécessité réelle de raisonner. Cette métrique permet au modèle de détecter automatiquement si une question mérite un effort cognitif étendu ou une réponse directe. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires depuis l'émergence des modèles de type "reasoning" comme o1 d'OpenAI ou DeepSeek-R1 : comment rendre le raisonnement à l'inférence à la fois plus puissant et plus efficient. Trouver le bon équilibre entre budget de calcul et performance est devenu un axe de compétition majeur, notamment pour les applications en temps réel où la latence et le coût par requête sont critiques.

RecherchePaper

1 source

L'élagage des données d'entraînement améliore la mémorisation des faits

45

3Apple Machine Learning

L'élagage des données d'entraînement améliore la mémorisation des faits

Des chercheurs ont présenté une nouvelle approche pour améliorer la mémorisation des faits dans les grands modèles de langage, dans un article accepté au workshop "Navigating and Addressing Data Problems for Foundation Models" de la conférence ICLR 2026. Leur travail démontre que les LLMs peinent systématiquement à encoder les connaissances factuelles dans leurs paramètres lorsque la quantité d'information contenue dans les données d'entraînement dépasse la capacité du modèle. En formalisant ce problème sous un angle théorique de l'information, ils établissent une limite quantifiable au-delà de laquelle la précision factuelle se dégrade inévitablement. La solution proposée est contre-intuitive : plutôt que d'augmenter la taille des données d'entraînement, il faut les élaguer. En réduisant la redondance et en sélectionnant plus rigoureusement les exemples factuels, les modèles mémorisent mieux les informations critiques. Ce mécanisme de pruning améliore directement les performances sur les tâches intensives en connaissances et réduit les hallucinations, l'un des défauts les plus coûteux des LLMs en production. Ce travail s'inscrit dans une prise de conscience croissante au sein de la communauté autour de la qualité des données d'entraînement, au-delà de la simple quantité. Des initiatives comme FineWeb ou DCLM ont déjà montré que le filtrage intelligent des corpus améliore les benchmarks, mais ce papier apporte une justification théorique solide au phénomène. Les implications sont importantes pour les futures générations de modèles, où les budgets de calcul et les limites de capacité imposent des arbitrages stricts sur ce qu'un modèle peut réellement retenir.

UELes équipes européennes développant des corpus d'entraînement filtrés, comme HuggingFace (France) avec FineWeb, disposent désormais d'une justification théorique solide pour renforcer leurs stratégies de pruning de données.

RecherchePaper

1 source

Entraînement par anticipation latente pour les Transformers

38

4Apple Machine Learning

Entraînement par anticipation latente pour les Transformers

Les modèles de langage autorégressifs sont aujourd'hui entraînés via la prédiction du prochain token, une approche efficace mais fondamentalement limitée : à chaque étape, le modèle doit s'engager sur un choix unique, sans possibilité d'explorer plusieurs continuations plausibles. Une nouvelle recherche, acceptée à l'ICLR 2026 dans le cadre du workshop Latent & Implicit Thinking, propose une alternative : l'entraînement par anticipation latente (Latent Anticipation Training), conçu pour dépasser ces contraintes structurelles. L'enjeu est de taille pour le secteur. L'objectif de prédiction token par token impose une allocation de calcul uniforme : chaque token mobilise exactement un seul passage forward, quelle que soit sa difficulté. Cela bride l'expressivité du modèle sur les tokens complexes, ceux qui nécessiteraient davantage de "réflexion" avant d'être générés. En introduisant une dimension latente dans le processus d'entraînement, l'approche permet au modèle de raisonner implicitement avant de s'engager, ouvrant la voie à un calcul adaptatif selon la difficulté du contexte. Le papier s'inscrit dans un courant de recherche croissant qui cherche à aller au-delà du raisonnement par chaîne de pensée (Chain-of-Thought), en déportant une partie du raisonnement dans un espace latent non visible. Contrairement au CoT classique qui externalise le raisonnement sous forme de tokens intermédiaires explicites, l'anticipation latente opère de manière implicite, sans surcharge du contexte de génération. Cette distinction est centrale : le modèle "pense" sans écrire, ce qui réduit la latence et préserve la fluidité de génération. Si les résultats complets ne sont pas encore publics dans cet extrait, l'acceptation du travail à l'ICLR, l'une des conférences de référence en apprentissage automatique, signale une contribution jugée solide par la communauté. La convergence de plusieurs équipes vers des architectures à raisonnement latent, dont les récents travaux sur les Coconut tokens ou les espaces de pensée continues, suggère que cette direction pourrait redéfinir la prochaine génération de grands modèles de langage.

RecherchePaper

1 source

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

À lire aussi

Les traces de raisonnement variées améliorent la prise de décision des LLM

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

L'élagage des données d'entraînement améliore la mémorisation des faits

Entraînement par anticipation latente pour les Transformers