RechercheInfoQ AI8sem

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage

Résumé IASource uniqueImpact UE

Des chercheurs de Google Research ont développé une nouvelle méthode d'entraînement qui apprend aux grands modèles de langage (LLMs) à approximer le raisonnement bayésien, en s'appuyant sur les prédictions d'un système bayésien optimal comme signal d'apprentissage. Cette approche cible un point de faiblesse structurel des LLMs actuels : leur capacité à mettre à jour leurs croyances de manière cohérente au fil d'une conversation multi-tours.

L'enjeu est fondamental pour l'industrie. Un modèle qui raisonne de façon bayésienne intègre chaque nouvelle information pour affiner ses estimations de manière mathématiquement rigoureuse — là où les LLMs classiques ont tendance à ignorer ou mal pondérer les indices contextuels successifs. Pour les applications à forte valeur ajoutée (assistants médicaux, juridiques, scientifiques), cette capacité à réviser ses conclusions à la lumière de nouveaux faits est critique.

La méthode proposée repose sur une distillation de comportement : le LLM est entraîné à imiter les sorties d'un inféreur bayésien optimal, servant de "professeur" théorique. L'apprentissage porte spécifiquement sur les interactions multi-étapes, où le modèle doit traiter des informations arrivant séquentiellement et mettre à jour ses probabilités en conséquence. L'article est signé par Daniel Dominguez, chercheur associé à l'initiative.

Si les résultats se confirment à l'échelle, cette direction de recherche pourrait marquer une rupture dans la façon dont les modèles gèrent l'incertitude — en remplaçant des heuristiques statistiques implicites par un cadre formel inspiré de la théorie des probabilités. Google positionne ainsi ses travaux en amont d'une limitation reconnue de toute l'industrie, avant même que les architectures de type "reasoning models" n'aient pleinement résolu ce défi.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper

1 source

2MarkTechPost

L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM

Des chercheurs de Google ont identifié une limite majeure des LLMs comme Llama-3-70B et Qwen-2.5-32B : leur incapacité à mettre à jour leurs "croyances" au fil des interactions, plafonnant dès le premier échange. Ils ont développé le Bayesian Teaching, une technique d'entraînement qui apprend aux modèles à raisonner comme un assistant bayésien — en maintenant et mettant à jour une distribution de probabilités sur les préférences utilisateur à chaque round. Contre-intuitivement, entraîner les modèles sur des "suppositions éclairées" (souvent fausses en début d'apprentissage) s'est révélé plus efficace que de les entraîner sur les bonnes réponses, permettant à des modèles comme Gemma-2-9B et Llama-3-8B d'approcher les performances du modèle bayésien de référence.

RecherchePaper

1 source

3Apple Machine Learning

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper

1 source

4OpenAI Blog

Amélioration de la hiérarchie d'instructions dans les grands modèles de langage de pointe

IH-Challenge est un dispositif d'entraînement qui apprend aux grands modèles de langage à prioriser les instructions de confiance selon une hiérarchie définie. Cette approche améliore la capacité des modèles à être guidés vers des comportements sûrs et renforce leur résistance aux attaques par injection de prompt. Les résultats montrent des gains significatifs en matière de sécurité et de contrôlabilité des LLMs.

UECette recherche sur la sécurité et la contrôlabilité des LLMs pourrait bénéficier aux développeurs européens comme Mistral AI dans leur effort de conformité avec l'AI Act de l'UE.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour