RechercheVentureBeat AI · 13 juin 2026, 00:27· 2 min de lecture

Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent

Résumé IASource uniqueImpact UE Take éditorial

Des chercheurs de Google ont publié un article proposant une approche nouvelle pour lutter contre les hallucinations des grands modèles de langage, baptisée "faithful uncertainty" (incertitude fidèle). La technique, présentée par Gal Yona, chercheur scientifique chez Google et co-auteur de l'étude, repose sur un principe métacognitif : aligner les réponses d'un modèle sur sa confiance interne réelle. Concrètement, plutôt que de forcer le modèle à choisir entre répondre avec assurance ou s'abstenir entièrement, cette approche lui permet d'exprimer des hypothèses nuancées comme "si je ne me trompe pas" ou "je pense que, mais je n'en suis pas certain". Le modèle peut ainsi partager des informations partielles tout en signalant leur degré de fiabilité, y compris dans des systèmes d'IA agentique où des décisions s'enchaînent sans supervision humaine constante.

L'enjeu est considérable pour les applications d'entreprise, qui se heurtent à ce que les auteurs appellent le "utility tax", ou coût en utilité. Les stratégies actuelles de réduction des hallucinations imposent un compromis brutal : pour abaisser un taux d'erreur de 25 % à un seuil strict de 5 %, les développeurs doivent sacrifier 52 % des réponses correctes du modèle. En pratique, les équipes techniques refusent ce compromis et configurent leurs systèmes pour maximiser la couverture, ce qui pousse les modèles à continuer de générer des erreurs présentées avec confiance. La redéfinition proposée par Google permet de sortir de cette impasse : une erreur factuelle accompagnée d'une réserve explicite n'est plus une hallucination, c'est une hypothèse. Seule une affirmation incorrecte livrée avec autorité, sans qualification, constitue une véritable hallucination. Cette distinction préserve à la fois la fiabilité et l'utilité du système.

Cette recherche s'inscrit dans une prise de conscience plus large des limites structurelles des LLMs. Pendant des années, les progrès en factualité ont surtout reposé sur l'expansion des connaissances : des modèles plus grands, nourris de davantage de données d'entraînement. Mais comme le souligne Yona, "la capacité des modèles est finie, alors que la longue traîne de la connaissance est effectivement infinie." La vraie faiblesse réside dans la conscience des limites, c'est-à-dire la capacité du modèle à distinguer ce qu'il sait de ce qu'il ignore. Dans les applications agentiques, où des systèmes autonomes prennent des décisions en cascade, cette conscience métacognitive devient un mécanisme de contrôle critique : elle permet au modèle de déterminer seul quand son savoir interne est suffisant et quand il doit faire appel à des outils externes ou des API de recherche pour combler ses lacunes.

Impact France/UE

Les équipes techniques européennes déployant des LLMs en production pourraient adopter cette approche pour réduire les hallucinations sans sacrifier la couverture des réponses, un enjeu critique pour les applications d'entreprise.

💬 L'analyse de Mathieu

Le chiffre qui tue : pour passer de 25 à 5% d'hallucinations, tu sacrifies 52% des bonnes réponses. Personne ne fait ce compromis, donc les modèles continuent de débiter des erreurs avec assurance. Laisser un LLM dire "je pense que, mais je n'en suis pas certain" plutôt qu'affirmer ou se taire, c'est pas spectaculaire sur le papier, mais si ça tient en prod, ça règle un problème que tout le monde contourne depuis 2 ans.

Dans nos dossiers

Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1InfoQ AI

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage

Des chercheurs de Google Research ont développé une nouvelle méthode d'entraînement qui apprend aux grands modèles de langage (LLMs) à approximer le raisonnement bayésien, en s'appuyant sur les prédictions d'un système bayésien optimal comme signal d'apprentissage. Cette approche cible un point de faiblesse structurel des LLMs actuels : leur capacité à mettre à jour leurs croyances de manière cohérente au fil d'une conversation multi-tours. L'enjeu est fondamental pour l'industrie. Un modèle qui raisonne de façon bayésienne intègre chaque nouvelle information pour affiner ses estimations de manière mathématiquement rigoureuse, là où les LLMs classiques ont tendance à ignorer ou mal pondérer les indices contextuels successifs. Pour les applications à forte valeur ajoutée (assistants médicaux, juridiques, scientifiques), cette capacité à réviser ses conclusions à la lumière de nouveaux faits est critique. La méthode proposée repose sur une distillation de comportement : le LLM est entraîné à imiter les sorties d'un inféreur bayésien optimal, servant de "professeur" théorique. L'apprentissage porte spécifiquement sur les interactions multi-étapes, où le modèle doit traiter des informations arrivant séquentiellement et mettre à jour ses probabilités en conséquence. L'article est signé par Daniel Dominguez, chercheur associé à l'initiative. Si les résultats se confirment à l'échelle, cette direction de recherche pourrait marquer une rupture dans la façon dont les modèles gèrent l'incertitude, en remplaçant des heuristiques statistiques implicites par un cadre formel inspiré de la théorie des probabilités. Google positionne ainsi ses travaux en amont d'une limitation reconnue de toute l'industrie, avant même que les architectures de type "reasoning models" n'aient pleinement résolu ce défi.

RecherchePaper

1 source

2Apple Machine Learning

Quantification de l'incertitude pour l'appel de fonctions dans les LLM

Les modèles de langage (LLM) sont de plus en plus déployés pour accomplir de manière autonome des tâches concrètes, notamment grâce au paradigme dit du "function calling", qui leur permet d'appeler des outils externes pour agir sur le monde réel. Ce mécanisme est aujourd'hui largement utilisé pour doter les LLM de capacités d'usage d'outils, que ce soit pour interroger une base de données, exécuter du code ou déclencher une action dans une application tierce. Le problème soulevé par des chercheurs est qu'un appel de fonction incorrect peut avoir des conséquences graves, en particulier lorsque l'action déclenchée est irréversible, comme un virement bancaire ou la suppression de données. Face à ce risque, les auteurs proposent d'évaluer la confiance du modèle dans la justesse d'un appel de fonction avant même de l'exécuter, via des méthodes de quantification de l'incertitude, ou "Uncertainty Quantification" (UQ). Cette approche change la donne pour les entreprises qui intègrent des agents IA autonomes dans leurs systèmes de production. Plutôt que de laisser un modèle exécuter aveuglément chaque action qu'il génère, la quantification de l'incertitude permettrait de détecter en amont les appels de fonction douteux et de les soumettre à une validation humaine ou de les bloquer purement et simplement. Pour les secteurs sensibles comme la finance, la santé ou la gestion de données critiques, ce type de garde-fou pourrait devenir un prérequis avant tout déploiement à grande échelle d'agents capables d'agir sans supervision constante. Cette recherche s'inscrit dans un mouvement plus large de la communauté IA visant à rendre les agents autonomes plus fiables et plus sûrs, alors que leur adoption s'accélère dans les entreprises. Les mécanismes de function calling, bien que puissants, restent une source de fragilité: un modèle peut mal interpréter une requête, halluciner des paramètres ou choisir le mauvais outil. En couplant ces systèmes à des méthodes de quantification de l'incertitude, les chercheurs espèrent ouvrir la voie à des agents capables d'évaluer eux-mêmes leur propre fiabilité, une étape jugée essentielle avant de leur confier des tâches à fort enjeu.

RecherchePaper

1 source

3Apple Machine Learning

Recherche linguistique récursive face à l'incertitude : l'efficacité surprenante de la recherche de programmes auto-réflexifs pour le contexte long

Les modèles de langage peinent encore à exploiter fiablement de très longs contextes, même quand leur fenêtre de contexte s'étend sur des dizaines ou centaines de milliers de tokens : ils échoient souvent à extraire, relier et réutiliser correctement les informations disséminées dans ces textes. Une approche récente, les Recursive Language Models (RLM), tente de contourner ce problème en décomposant le contexte long en une série de sous-requêtes traitées de façon agentique, via des programmes générés et exécutés au moment de l'inférence. Un article de recherche s'attaque ici à une question restée jusque-là dans l'angle mort de cette méthode : comment sélectionner, parmi les multiples trajectoires possibles de programmes d'interaction avec le contexte, celle qui donnera le meilleur résultat. Les auteurs montrent que la performance des RLM dépend de façon critique de ce choix, et proposent une méthode de recherche de programme auto-réflexive fondée sur l'incertitude du modèle pour guider cette sélection. Cette question compte parce que les RLM sont présentés comme une piste sérieuse pour traiter des documents, bases de code ou historiques de conversation trop volumineux pour tenir dans une fenêtre de contexte classique, sans perte de précision. Si la qualité de la trajectoire de sous-requêtes choisie détermine la fiabilité finale des réponses, alors optimiser ce mécanisme de sélection devient un levier direct pour rendre ces systèmes utilisables en production, par exemple pour l'analyse de contrats juridiques, de logs techniques ou de vastes corpus de recherche, là où une mauvaise décomposition du contexte peut aujourd'hui faire échouer toute la chaîne de raisonnement. Le travail s'inscrit dans une dynamique plus large de recherche sur les architectures agentiques appliquées au traitement de contexte long, où plusieurs équipes explorent des stratégies de découpage, de résumé récursif ou d'appel d'outils pour pallier les limites structurelles des transformeurs sur les séquences très longues. En mettant l'incertitude du modèle au cœur du processus de sélection de programme, les auteurs ouvrent une piste pour rendre ces systèmes plus robustes et plus autonomes, avec des implications potentielles pour la conception future d'agents capables de gérer des tâches de recherche et d'analyse documentaire complexes sans supervision humaine constante.

RecherchePaper

1 source

4The Decoder

Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web

Les principaux agents de recherche IA, dont GPT-5.4 d'OpenAI et Kimi K2.6 de Moonshot AI, n'effectuent pas autant de recherches web réelles qu'ils le laissent entendre. C'est la conclusion d'une étude menée par des chercheurs de l'Institut de technologie de Harbin, qui ont développé un nouveau benchmark temporel appelé LiveBrowseComp. Ce test se distingue des évaluations classiques en ne posant des questions que sur des événements survenus au cours des 90 derniers jours, soit une fenêtre temporelle postérieure aux données d'entraînement des modèles. Les résultats sont révélateurs : dès que les modèles ne peuvent plus s'appuyer sur leur mémoire d'entraînement, leurs performances s'effondrent et les classements habituels sont bouleversés. Cela signifie que ces agents, présentés comme de puissants outils de recherche en ligne, se contentent en réalité d'utiliser le web pour confirmer ce qu'ils savent déjà, plutôt que de véritablement explorer et synthétiser des informations récentes. Pour les entreprises et professionnels qui s'y fient pour une veille ou une analyse d'actualité, c'est une limitation critique. Ce constat intervient alors que les éditeurs d'IA rivalisent pour positionner leurs modèles comme des assistants de recherche autonomes capables de naviguer sur internet. Les benchmarks traditionnels, construits sur des données historiques, masquaient cette faiblesse structurelle. LiveBrowseComp introduit une contrainte temporelle qui force une évaluation plus honnête des capacités réelles de navigation web. L'enjeu est de taille : si les classements sont rebattus sur cette base, la confiance accordée aux agents IA pour des tâches de recherche actuelle devra être sérieusement réévaluée.

UELes entreprises et professionnels européens qui s'appuient sur ces agents pour de la veille ou de l'analyse d'actualité doivent réévaluer leur fiabilité pour tout contenu postérieur aux données d'entraînement.

💬 C'est prouvé maintenant : ces agents ne cherchent pas vraiment, ils confirment ce qu'ils savent. Le benchmark de Harbin est malin, poser uniquement des questions sur les 90 derniers jours c'est une façon élégante de court-circuiter la mémoire d'entraînement, et du coup les classements habituels volent en éclats. Si tu t'appuies là-dessus pour une vraie veille, je te laisse tirer les conclusions.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic