
AI Overviews : Google conteste le taux de 10% d’erreurs, mais en dénombre lui-même… 22%
Le New York Times a mandaté la start-up Oumi pour analyser les AI Overviews de Google, ces résumés générés par IA qui apparaissent en tête des résultats de recherche, à l'aide du benchmark SimpleQA, publié par OpenAI en 2024 et comportant plus de 4 000 questions à réponses vérifiables. Deux séries de tests ont été conduites : une première en octobre 2025 avec le modèle Gemini 2, une seconde en février 2026 après migration vers Gemini 3, sur un corpus identique de 4 326 recherches Google. Résultat : Gemini 2 répondait correctement dans 85 % des cas, Gemini 3 dans 91 %. Mais le NYT souligne un autre problème : plus de la moitié des réponses correctes de Gemini 3 sont « non étayées », c'est-à-dire qu'elles renvoient vers des sources qui ne confirment pas entièrement l'information fournie, un taux qui a bondi de 37 % à 56 % entre octobre et février, soit une hausse de 50 %. Google a contesté ces chiffres, jugeant que SimpleQA, conçu par un concurrent direct, constitue un benchmark biaisé.
Le problème dépasse la simple question de précision technique. Google traite plus de cinq mille milliards de recherches par an, ce qui signifie, selon le calcul du NYT, que des dizaines de millions de réponses erronées sont distribuées chaque heure. À cette échelle, une marge d'erreur de 9 % se traduit par des centaines de milliers d'inexactitudes par minute, diffusées à des utilisateurs qui, selon une étude citée dans l'article, ne vérifient pas les réponses fournies par les IA dans 92 % des cas. La mention « L'IA peut se tromper » affichée en petits caractères sous chaque résumé apparaît donc largement insuffisante face à l'ampleur du phénomène.
Le paradoxe central de cette affaire est que Google, en contestant le benchmark d'OpenAI, a mis en avant son propre outil de mesure, révisé pour être, selon ses termes, « plus précis ». Or cet outil interne aboutit à un taux d'erreur supérieur à 20 %, soit le double du chiffre que Google cherchait à réfuter. La situation illustre la tension structurelle à laquelle font face les grands moteurs de recherche : intégrer des LLMs pour rester compétitifs face à ChatGPT et Perplexity, tout en assumant une responsabilité éditoriale sur des milliards de réponses quotidiennes. Gemini 3 progresse en précision brute, mais dégrade simultanément la traçabilité des sources, un compromis qui soulève des questions durables sur la fiabilité des interfaces IA comme point d'entrée unique vers l'information.
Les utilisateurs européens de Google Search sont directement exposés à ces taux d'erreur élevés, soulevant des questions de transparence et de responsabilité éditoriale dans le cadre des obligations de l'AI Act.



