Aller au contenu principal
L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM
RechercheMarkTechPost15sem· 1 min de lecture

L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM

Source originale ↗·

Des chercheurs de Google ont identifié une limite majeure des LLMs comme Llama-3-70B et Qwen-2.5-32B : leur incapacité à mettre à jour leurs "croyances" au fil des interactions, plafonnant dès le premier échange. Ils ont développé le Bayesian Teaching, une technique d'entraînement qui apprend aux modèles à raisonner comme un assistant bayésien — en maintenant et mettant à jour une distribution de probabilités sur les préférences utilisateur à chaque round. Contre-intuitivement, entraîner les modèles sur des "suppositions éclairées" (souvent fausses en début d'apprentissage) s'est révélé plus efficace que de les entraîner sur les bonnes réponses, permettant à des modèles comme Gemma-2-9B et Llama-3-8B d'approcher les performances du modèle bayésien de référence.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage
1InfoQ AI 

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage

Des chercheurs de Google Research ont proposé une méthode d'entraînement permettant aux grands modèles de langage d'approximer le raisonnement bayésien, en apprenant à partir des prédictions d'un système bayésien optimal. L'objectif est d'améliorer la façon dont les modèles mettent à jour leurs croyances au fil des interactions multi-étapes, à mesure qu'ils reçoivent de nouvelles informations.

RecherchePaper
1 source
PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils
2Apple Machine Learning 

PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils

Des chercheurs ont publié PORTool, un algorithme d'optimisation de politique dit "importance-aware" conçu pour améliorer l'entraînement des agents LLM capables d'utiliser plusieurs outils simultanément. Le système introduit un arbre de récompenses (rewarded tree) qui attribue des crédits à chaque étape intermédiaire d'un raisonnement, plutôt qu'uniquement à l'issue finale d'une tâche. Concrètement, lorsqu'un agent enchaîne des appels à des outils externes avant de produire une réponse, PORTool est capable de noter individuellement chaque décision prise en cours de route. Le problème central que PORTool cherche à résoudre est l'ambiguïté d'attribution de crédit, un obstacle persistant dans l'entraînement des agents multi-outils. Avec les méthodes classiques basées uniquement sur le résultat final, il est impossible de savoir quelles décisions intermédiaires ont contribué au succès ou à l'échec d'une séquence. Ce manque de granularité dégrade la qualité de l'apprentissage et rend les agents peu fiables en conditions réelles. PORTool offre un signal d'entraînement plus précis, ce qui devrait se traduire par des agents mieux capables de mobiliser les bons outils au bon moment. Le raisonnement multi-outils est devenu un enjeu central depuis l'essor des agents autonomes comme GPT-4 avec plugins, ou les architectures ReAct et ToolLLM. Ces systèmes montrent un potentiel considérable pour automatiser des tâches complexes en milieu professionnel, mais leur fiabilité dépend directement de la qualité de leur entraînement. PORTool s'inscrit dans une vague de travaux sur l'apprentissage par renforcement appliqué aux LLM, un domaine en pleine effervescence depuis les succès de DeepSeek-R1 et d'autres modèles à raisonnement renforcé.

RecherchePaper
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
3VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
Les modèles de raisonnement luttent pour contrôler leurs chaînes de pensée, et c'est bien ainsi
4OpenAI Blog 

Les modèles de raisonnement luttent pour contrôler leurs chaînes de pensée, et c'est bien ainsi

OpenAI a introduit CoT-Control et a constaté que les modèles de raisonnement ont du mal à contrôler leurs chaînes de pensée, ce qui souligne l'importance de la surveillabilité comme mesure de sécurité en IA. Cette difficulté à réguler leurs processus de raisonnement renforce l'idée que la capacité à surveiller les pensées des modèles est cruciale pour assurer leur sécurité.

RechercheOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic