Aller au contenu principal
RechercheAmazon Science2h

Les traces de raisonnement variées améliorent la prise de décision des LLM

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté à l'ICLR 2025 une nouvelle méthode d'entraînement des grands modèles de langage (LLM) qui améliore significativement leurs capacités de raisonnement. Baptisée SSFT (Set-Supervised Fine Tuning), cette approche consiste à entraîner un modèle sur plusieurs chemins de raisonnement distincts pour un même problème, plutôt que sur une seule trace humaine vérifiée comme c'est l'usage avec le fine-tuning supervisé classique. Pour guider le modèle, les chercheurs introduisent des "tokens de branchement global", des marqueurs spéciaux insérés pendant la phase d'entraînement post-initial, chacun activant un mode de raisonnement différent. En combinant SSFT avec une couche d'apprentissage par renforcement qu'ils nomment GFPO (Global Forking Policy Optimization), ils obtiennent des gains de 5 à 7 % en précision sur les benchmarks standards, mesurés en pass@1, c'est-à-dire la probabilité qu'une réponse unique générée soit correcte.

L'enjeu est de taille : la capacité de raisonnement est devenue le principal critère de différenciation entre les LLM de pointe. Or, la méthode d'entraînement dominante, fournir au modèle une seule trace de raisonnement par exemple, plafonne naturellement ce que le modèle peut apprendre. Le problème identifié avec les approches naïves de raisonnement parallèle est le "mode collapse" : quand plusieurs stratégies sont possibles, le modèle finit par toutes les converger vers le même comportement. SSFT résout cela via un appariement bipartite qui associe chaque trace à un token de contrôle spécifique, forçant le modèle à maintenir des stratégies réellement distinctes. Le GFPO ajoute ensuite une logique de sélection : le modèle apprend non seulement plusieurs modes de raisonnement, mais aussi lequel employer selon le contexte du problème posé. Cette capacité de méta-décision, absente du fine-tuning supervisé, est précisément ce qui génère les gains observés.

Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser les limites du scaling en données brutes, en explorant comment structurer l'entraînement pour maximiser la diversité et la qualité du raisonnement. Des techniques comme la self-consistency, agréger plusieurs chemins de raisonnement pour voter la meilleure réponse, ont montré que la diversité de raisonnement améliore la robustesse des LLM à l'évaluation. La question logique était donc de savoir si cette diversité pouvait être intégrée dès l'entraînement. Les traces multiples nécessaires à SSFT peuvent être obtenues de plusieurs façons : en interrogeant plusieurs modèles enseignants, en échantillonnant un même modèle avec des températures variées, ou en agrégeant des solutions de sources hétérogènes. Cette flexibilité rend la méthode applicable sans infrastructure propriétaire, ce qui devrait faciliter son adoption dans la communauté de recherche et potentiellement chez les acteurs industriels cherchant à améliorer leurs modèles sans augmenter davantage la taille des données d'entraînement.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs
1Apple Machine Learning 

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

Des chercheurs ont publié LaDiR (Latent Diffusion Reasoner), un nouveau cadre de raisonnement qui couple les grands modèles de langage existants à des modèles de diffusion latente. L'objectif : dépasser les limites inhérentes à la génération autoreégressive, en introduisant une étape de raffinement itératif dans un espace de représentation continu structuré, avant que le modèle ne produise sa réponse finale en texte. Le problème visé est fondamental. Lorsqu'un LLM génère token par token, il ne peut pas revenir modifier ce qu'il a déjà écrit, une contrainte qui pénalise les tâches de raisonnement complexes où la solution exige d'explorer plusieurs pistes et de corriger des erreurs en cours de route. LaDiR contourne cette limite en faisant "mûrir" le raisonnement dans un espace latent continu, via un processus de diffusion, avant de le transcrire en langage naturel. Cela permet une exploration plus diverse et un affinement global de la chaîne de pensée, impossible avec le décodage autorégressif classique. L'approche s'inscrit dans une vague de recherches cherchant à améliorer le raisonnement des LLMs au-delà du simple chain-of-thought (CoT), popularisé notamment par les modèles o1 d'OpenAI et R1 de DeepSeek. Contrairement aux méthodes qui allongent simplement le texte intermédiaire, LaDiR exploite l'espace continu des représentations pour structurer ce raisonnement de façon plus riche. La compatibilité avec des modèles existants, sans réentraînement complet, constitue un avantage pratique notable si les résultats se confirment sur des benchmarks de référence.

RecherchePaper
1 source
L'élagage des données d'entraînement améliore la mémorisation des faits
2Apple Machine Learning 

L'élagage des données d'entraînement améliore la mémorisation des faits

Des chercheurs ont présenté une nouvelle approche pour améliorer la mémorisation des faits dans les grands modèles de langage, dans un article accepté au workshop "Navigating and Addressing Data Problems for Foundation Models" de la conférence ICLR 2026. Leur travail démontre que les LLMs peinent systématiquement à encoder les connaissances factuelles dans leurs paramètres lorsque la quantité d'information contenue dans les données d'entraînement dépasse la capacité du modèle. En formalisant ce problème sous un angle théorique de l'information, ils établissent une limite quantifiable au-delà de laquelle la précision factuelle se dégrade inévitablement. La solution proposée est contre-intuitive : plutôt que d'augmenter la taille des données d'entraînement, il faut les élaguer. En réduisant la redondance et en sélectionnant plus rigoureusement les exemples factuels, les modèles mémorisent mieux les informations critiques. Ce mécanisme de pruning améliore directement les performances sur les tâches intensives en connaissances et réduit les hallucinations, l'un des défauts les plus coûteux des LLMs en production. Ce travail s'inscrit dans une prise de conscience croissante au sein de la communauté autour de la qualité des données d'entraînement, au-delà de la simple quantité. Des initiatives comme FineWeb ou DCLM ont déjà montré que le filtrage intelligent des corpus améliore les benchmarks, mais ce papier apporte une justification théorique solide au phénomène. Les implications sont importantes pour les futures générations de modèles, où les budgets de calcul et les limites de capacité imposent des arbitrages stricts sur ce qu'un modèle peut réellement retenir.

UELes équipes européennes développant des corpus d'entraînement filtrés, comme HuggingFace (France) avec FineWeb, disposent désormais d'une justification théorique solide pour renforcer leurs stratégies de pruning de données.

RecherchePaper
1 source
Modèles personnalisés d'Amazon Nova améliorent la prédiction des propriétés moléculaires dans la découverte de médicaments
3Amazon Science 

Modèles personnalisés d'Amazon Nova améliorent la prédiction des propriétés moléculaires dans la découverte de médicaments

Les chercheurs de l'Amazon Generative AI Innovation Center et de l'organisation Artificial General Intelligence (AGI) ont collaboré avec Nimbus Therapeutics pour adapter les grands modèles linguistiques (LLMs) à la découverte de médicaments. Traditionnellement, les réseaux neuronaux graphiques (GNNs) sont employés dans le domaine de la prédiction des propriétés moléculaires pour la R&D pharmaceutique en raison de leur précision solide sur des tâches bien définies. Cependant, cette approche nécessite le développement et la maintenance coûteux de multiples GNNs spécialisés pour différentes propriétés moléculaires. L'équipe a adopté une nouvelle stratégie qui combine l'exactitude des GNNs avec la généralisation et le raisonnement des LLMs grâce à la mise à finement supérieur (SFT) et au mise à finement par renforcement (RFT). En personnalisant un LLM de purpose général, ils ont obtenu des résultats comparables à ceux obtenus avec plusieurs GNNs, mais en beaucoup moins de temps et d'efforts. Les LLMs ainsi affinés simplifient considérablement le processus, permettant aux chimistes de soumettre une seule requête pour obtenir des prédictions sur toutes les propriétés moléculaires d'intérêt, plutôt que de gérer plusieurs modèles dissociés. Cette approche ouvre la possibilité d'une assistance interactive qui unifie à la fois la prédiction et la génération des propriétés moléculaires, ce que l'équipe considère comme le prochain pas idéal pour la conception assistée par IA des médicaments. Ces modèles personnalisés permettent aux équipes biotech de moindre envergure de collaborer efficacement avec des systèmes d'IA qui comprennent leur langage scientifique spécialisé. Le développement d'un seul médicament prend généralement 10 à 15 ans et coûte en moyenne plus de 2 milliards de dollars, avec seulement environ 8 % des candidats médicaments qui entrent dans les essais cliniques recevant l'approbation de la FDA. Les assistants d'IA prometteurs pourraient améliorer considérablement la productivité dans les premières étapes du pipeline, où les chimistes conçoivent des molécules avec des propriétés pharmaceutiques, augmentant ainsi les chances de livrer un médicament sûr et efficace aux essais cliniques. L'étude s'est concentrée sur trois catégories de propriétés cruciales pour le développement des médicaments : lipophilicité, permeabilité et clairance. La lipophilicité détermine si une molécule peut traverser les membranes biologiques, influençant l'absorption et la distribution du médicament, ainsi que d'autres caractéristiques. La permeabilité mesure la facilité avec laquelle un médicament pénètre dans le corps via le sang, tandis que la clairance indique la rapidité avec laquelle le corps élimine le médicament. Ces propriétés varient sur des plages de valeurs différentes et présentent des dépendances complexes, posant des défis pour optimiser les candidats médicaments efficaces et sûrs.

UECette collaboration entre Amazon, AGI et Nimbus Therapeutics pour adapter les grands modèles linguistiques aux besoins spécifiques de la découverte de médicaments pourrait accélérer considérablement le processus R&D pharmaceutique en France, facilitant ainsi l'accès à des outils plus efficaces et moins coûteux.

💬 Remplacer une batterie de GNNs spécialisés par un seul LLM affiné, c'est le genre de simplification qui paraît évidente après coup mais qui demande un travail de fond sérieux. Les résultats semblent tenir la route, et pour les petites équipes biotech qui n'ont pas les ressources pour maintenir dix modèles maison, c'est une vraie bouffée d'air. Amazon s'installe tranquillement dans la pharma, et ça ne fait que commencer.

RechercheActu
1 source
Les LLM rendus plus rapides sans sacrifier la précision
4Amazon Science 

Les LLM rendus plus rapides sans sacrifier la précision

Des chercheurs ont présenté lors de la conférence internationale ICLR (International Conference on Learning Representations) un nouveau cadre mathématique permettant d'optimiser à la fois la vitesse d'inférence et la précision des grands modèles de langage. Leur constat de départ est frappant : deux modèles ayant exactement le même nombre de paramètres, entraînés sur les mêmes données et atteignant la même précision, peuvent afficher des différences de débit allant jusqu'à 40 % selon leurs choix architecturaux. Ces choix portent sur trois variables concrètes : la taille des représentations internes du modèle (le "hidden size"), le ratio de paramètres alloués aux couches MLP par rapport aux couches d'attention, et une technique appelée "grouped-query attention" (GQA) dans laquelle plusieurs têtes d'attention partagent des matrices clé-valeur. En jouant sur ces leviers sous un budget de paramètres fixe, il est possible de réduire significativement les calculs lors de la génération de texte et d'alléger le cache clé-valeur, principal goulot d'étranglement en mémoire. L'enjeu est considérable pour toute l'industrie du logiciel en temps réel. Les applications web basées sur l'IA, chatbots, assistants, moteurs de recherche augmentés, ne peuvent pas se permettre des latences élevées même si le modèle sous-jacent est plus précis. Jusqu'ici, les équipes d'ingénierie devaient choisir empiriquement leur architecture, sans loi formelle pour guider ces arbitrages. Ce nouveau cadre leur offre une boussole quantitative : pour un budget computationnel donné, il devient possible de prédire quelle configuration architecturale maximisera le débit sans sacrifier la qualité des réponses. Ce travail s'inscrit dans la lignée directe de la "loi Chinchilla", publiée par Google DeepMind en 2022, qui avait établi comment ajuster conjointement la taille d'un modèle et le volume de données d'entraînement pour minimiser la perte à budget fixe. Cette loi, fondatrice dans la discipline, ne disait cependant rien des choix internes d'architecture. Les auteurs comblent ce manque en intégrant ces variables structurelles dans l'équation de scaling, transformant l'architecture en un paramètre de premier rang au même titre que le nombre de paramètres ou les tokens d'entraînement. À mesure que les modèles continuent de grossir et que les coûts d'inférence grimpent, ce type de cadre pourrait devenir un outil de référence pour les équipes qui cherchent à déployer des LLMs performants sans exploser leur facture de calcul.

UELes laboratoires européens comme Mistral AI pourraient directement appliquer ce cadre pour optimiser leurs choix architecturaux et réduire leurs coûts d'inférence sans sacrifier la précision.

💬 C'est le chaînon manquant après Chinchilla. On savait calibrer la taille du modèle et le volume de données, mais les choix architecturaux restaient du bricolage guidé par l'instinct, sans cadre formel pour trancher. 40% de débit en plus sur le même budget de paramètres, c'est le genre de gain qui change vraiment la facture à l'échelle, et Mistral et consorts seraient bien avisés de s'y plonger.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour