Aller au contenu principal
Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent
RechercheVentureBeat AI2j· 2 min de lecture

Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent

Source originale ↗·

Des chercheurs de Google ont publié un article proposant une approche nouvelle pour lutter contre les hallucinations des grands modèles de langage, baptisée "faithful uncertainty" (incertitude fidèle). La technique, présentée par Gal Yona, chercheur scientifique chez Google et co-auteur de l'étude, repose sur un principe métacognitif : aligner les réponses d'un modèle sur sa confiance interne réelle. Concrètement, plutôt que de forcer le modèle à choisir entre répondre avec assurance ou s'abstenir entièrement, cette approche lui permet d'exprimer des hypothèses nuancées comme "si je ne me trompe pas" ou "je pense que, mais je n'en suis pas certain". Le modèle peut ainsi partager des informations partielles tout en signalant leur degré de fiabilité, y compris dans des systèmes d'IA agentique où des décisions s'enchaînent sans supervision humaine constante.

L'enjeu est considérable pour les applications d'entreprise, qui se heurtent à ce que les auteurs appellent le "utility tax", ou coût en utilité. Les stratégies actuelles de réduction des hallucinations imposent un compromis brutal : pour abaisser un taux d'erreur de 25 % à un seuil strict de 5 %, les développeurs doivent sacrifier 52 % des réponses correctes du modèle. En pratique, les équipes techniques refusent ce compromis et configurent leurs systèmes pour maximiser la couverture, ce qui pousse les modèles à continuer de générer des erreurs présentées avec confiance. La redéfinition proposée par Google permet de sortir de cette impasse : une erreur factuelle accompagnée d'une réserve explicite n'est plus une hallucination, c'est une hypothèse. Seule une affirmation incorrecte livrée avec autorité, sans qualification, constitue une véritable hallucination. Cette distinction préserve à la fois la fiabilité et l'utilité du système.

Cette recherche s'inscrit dans une prise de conscience plus large des limites structurelles des LLMs. Pendant des années, les progrès en factualité ont surtout reposé sur l'expansion des connaissances : des modèles plus grands, nourris de davantage de données d'entraînement. Mais comme le souligne Yona, "la capacité des modèles est finie, alors que la longue traîne de la connaissance est effectivement infinie." La vraie faiblesse réside dans la conscience des limites, c'est-à-dire la capacité du modèle à distinguer ce qu'il sait de ce qu'il ignore. Dans les applications agentiques, où des systèmes autonomes prennent des décisions en cascade, cette conscience métacognitive devient un mécanisme de contrôle critique : elle permet au modèle de déterminer seul quand son savoir interne est suffisant et quand il doit faire appel à des outils externes ou des API de recherche pour combler ses lacunes.

Impact France/UE

Les équipes techniques européennes déployant des LLMs en production pourraient adopter cette approche pour réduire les hallucinations sans sacrifier la couverture des réponses, un enjeu critique pour les applications d'entreprise.

💬 L'analyse de Mathieu

Le chiffre qui tue : pour passer de 25 à 5% d'hallucinations, tu sacrifies 52% des bonnes réponses. Personne ne fait ce compromis, donc les modèles continuent de débiter des erreurs avec assurance. Laisser un LLM dire "je pense que, mais je n'en suis pas certain" plutôt qu'affirmer ou se taire, c'est pas spectaculaire sur le papier, mais si ça tient en prod, ça règle un problème que tout le monde contourne depuis 2 ans.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web
1The Decoder 

Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web

Les principaux agents de recherche IA, dont GPT-5.4 d'OpenAI et Kimi K2.6 de Moonshot AI, n'effectuent pas autant de recherches web réelles qu'ils le laissent entendre. C'est la conclusion d'une étude menée par des chercheurs de l'Institut de technologie de Harbin, qui ont développé un nouveau benchmark temporel appelé LiveBrowseComp. Ce test se distingue des évaluations classiques en ne posant des questions que sur des événements survenus au cours des 90 derniers jours, soit une fenêtre temporelle postérieure aux données d'entraînement des modèles. Les résultats sont révélateurs : dès que les modèles ne peuvent plus s'appuyer sur leur mémoire d'entraînement, leurs performances s'effondrent et les classements habituels sont bouleversés. Cela signifie que ces agents, présentés comme de puissants outils de recherche en ligne, se contentent en réalité d'utiliser le web pour confirmer ce qu'ils savent déjà, plutôt que de véritablement explorer et synthétiser des informations récentes. Pour les entreprises et professionnels qui s'y fient pour une veille ou une analyse d'actualité, c'est une limitation critique. Ce constat intervient alors que les éditeurs d'IA rivalisent pour positionner leurs modèles comme des assistants de recherche autonomes capables de naviguer sur internet. Les benchmarks traditionnels, construits sur des données historiques, masquaient cette faiblesse structurelle. LiveBrowseComp introduit une contrainte temporelle qui force une évaluation plus honnête des capacités réelles de navigation web. L'enjeu est de taille : si les classements sont rebattus sur cette base, la confiance accordée aux agents IA pour des tâches de recherche actuelle devra être sérieusement réévaluée.

UELes entreprises et professionnels européens qui s'appuient sur ces agents pour de la veille ou de l'analyse d'actualité doivent réévaluer leur fiabilité pour tout contenu postérieur aux données d'entraînement.

💬 C'est prouvé maintenant : ces agents ne cherchent pas vraiment, ils confirment ce qu'ils savent. Le benchmark de Harbin est malin, poser uniquement des questions sur les 90 derniers jours c'est une façon élégante de court-circuiter la mémoire d'entraînement, et du coup les classements habituels volent en éclats. Si tu t'appuies là-dessus pour une vraie veille, je te laisse tirer les conclusions.

RecherchePaper
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
2VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes
3VentureBeat AI 

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
4MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic