Aller au contenu principal
Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage
RechercheInfoQ AI14sem· 1 min de lecture

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage

Source originale ↗·

Des chercheurs de Google Research ont développé une nouvelle méthode d'entraînement qui apprend aux grands modèles de langage (LLMs) à approximer le raisonnement bayésien, en s'appuyant sur les prédictions d'un système bayésien optimal comme signal d'apprentissage. Cette approche cible un point de faiblesse structurel des LLMs actuels : leur capacité à mettre à jour leurs croyances de manière cohérente au fil d'une conversation multi-tours.

L'enjeu est fondamental pour l'industrie. Un modèle qui raisonne de façon bayésienne intègre chaque nouvelle information pour affiner ses estimations de manière mathématiquement rigoureuse — là où les LLMs classiques ont tendance à ignorer ou mal pondérer les indices contextuels successifs. Pour les applications à forte valeur ajoutée (assistants médicaux, juridiques, scientifiques), cette capacité à réviser ses conclusions à la lumière de nouveaux faits est critique.

La méthode proposée repose sur une distillation de comportement : le LLM est entraîné à imiter les sorties d'un inféreur bayésien optimal, servant de "professeur" théorique. L'apprentissage porte spécifiquement sur les interactions multi-étapes, où le modèle doit traiter des informations arrivant séquentiellement et mettre à jour ses probabilités en conséquence. L'article est signé par Daniel Dominguez, chercheur associé à l'initiative.

Si les résultats se confirment à l'échelle, cette direction de recherche pourrait marquer une rupture dans la façon dont les modèles gèrent l'incertitude — en remplaçant des heuristiques statistiques implicites par un cadre formel inspiré de la théorie des probabilités. Google positionne ainsi ses travaux en amont d'une limitation reconnue de toute l'industrie, avant même que les architectures de type "reasoning models" n'aient pleinement résolu ce défi.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
1Apple Machine Learning 

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper
1 source
L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM
2MarkTechPost 

L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM

Des chercheurs de Google ont identifié une limite majeure des LLMs comme Llama-3-70B et Qwen-2.5-32B : leur incapacité à mettre à jour leurs "croyances" au fil des interactions, plafonnant dès le premier échange. Ils ont développé le Bayesian Teaching, une technique d'entraînement qui apprend aux modèles à raisonner comme un assistant bayésien — en maintenant et mettant à jour une distribution de probabilités sur les préférences utilisateur à chaque round. Contre-intuitivement, entraîner les modèles sur des "suppositions éclairées" (souvent fausses en début d'apprentissage) s'est révélé plus efficace que de les entraîner sur les bonnes réponses, permettant à des modèles comme Gemma-2-9B et Llama-3-8B d'approcher les performances du modèle bayésien de référence.

RecherchePaper
1 source
Les grands modèles de langage comprennent-ils vraiment le contexte ?
3Apple Machine Learning 

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper
1 source
Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent
4VentureBeat AI 

Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent

Des chercheurs de Google ont publié un article proposant une approche nouvelle pour lutter contre les hallucinations des grands modèles de langage, baptisée "faithful uncertainty" (incertitude fidèle). La technique, présentée par Gal Yona, chercheur scientifique chez Google et co-auteur de l'étude, repose sur un principe métacognitif : aligner les réponses d'un modèle sur sa confiance interne réelle. Concrètement, plutôt que de forcer le modèle à choisir entre répondre avec assurance ou s'abstenir entièrement, cette approche lui permet d'exprimer des hypothèses nuancées comme "si je ne me trompe pas" ou "je pense que, mais je n'en suis pas certain". Le modèle peut ainsi partager des informations partielles tout en signalant leur degré de fiabilité, y compris dans des systèmes d'IA agentique où des décisions s'enchaînent sans supervision humaine constante. L'enjeu est considérable pour les applications d'entreprise, qui se heurtent à ce que les auteurs appellent le "utility tax", ou coût en utilité. Les stratégies actuelles de réduction des hallucinations imposent un compromis brutal : pour abaisser un taux d'erreur de 25 % à un seuil strict de 5 %, les développeurs doivent sacrifier 52 % des réponses correctes du modèle. En pratique, les équipes techniques refusent ce compromis et configurent leurs systèmes pour maximiser la couverture, ce qui pousse les modèles à continuer de générer des erreurs présentées avec confiance. La redéfinition proposée par Google permet de sortir de cette impasse : une erreur factuelle accompagnée d'une réserve explicite n'est plus une hallucination, c'est une hypothèse. Seule une affirmation incorrecte livrée avec autorité, sans qualification, constitue une véritable hallucination. Cette distinction préserve à la fois la fiabilité et l'utilité du système. Cette recherche s'inscrit dans une prise de conscience plus large des limites structurelles des LLMs. Pendant des années, les progrès en factualité ont surtout reposé sur l'expansion des connaissances : des modèles plus grands, nourris de davantage de données d'entraînement. Mais comme le souligne Yona, "la capacité des modèles est finie, alors que la longue traîne de la connaissance est effectivement infinie." La vraie faiblesse réside dans la conscience des limites, c'est-à-dire la capacité du modèle à distinguer ce qu'il sait de ce qu'il ignore. Dans les applications agentiques, où des systèmes autonomes prennent des décisions en cascade, cette conscience métacognitive devient un mécanisme de contrôle critique : elle permet au modèle de déterminer seul quand son savoir interne est suffisant et quand il doit faire appel à des outils externes ou des API de recherche pour combler ses lacunes.

UELes équipes techniques européennes déployant des LLMs en production pourraient adopter cette approche pour réduire les hallucinations sans sacrifier la couverture des réponses, un enjeu critique pour les applications d'entreprise.

💬 Le chiffre qui tue : pour passer de 25 à 5% d'hallucinations, tu sacrifies 52% des bonnes réponses. Personne ne fait ce compromis, donc les modèles continuent de débiter des erreurs avec assurance. Laisser un LLM dire "je pense que, mais je n'en suis pas certain" plutôt qu'affirmer ou se taire, c'est pas spectaculaire sur le papier, mais si ça tient en prod, ça règle un problème que tout le monde contourne depuis 2 ans.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic