
Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web
Les principaux agents de recherche IA, dont GPT-5.4 d'OpenAI et Kimi K2.6 de Moonshot AI, n'effectuent pas autant de recherches web réelles qu'ils le laissent entendre. C'est la conclusion d'une étude menée par des chercheurs de l'Institut de technologie de Harbin, qui ont développé un nouveau benchmark temporel appelé LiveBrowseComp. Ce test se distingue des évaluations classiques en ne posant des questions que sur des événements survenus au cours des 90 derniers jours, soit une fenêtre temporelle postérieure aux données d'entraînement des modèles.
Les résultats sont révélateurs : dès que les modèles ne peuvent plus s'appuyer sur leur mémoire d'entraînement, leurs performances s'effondrent et les classements habituels sont bouleversés. Cela signifie que ces agents, présentés comme de puissants outils de recherche en ligne, se contentent en réalité d'utiliser le web pour confirmer ce qu'ils savent déjà, plutôt que de véritablement explorer et synthétiser des informations récentes. Pour les entreprises et professionnels qui s'y fient pour une veille ou une analyse d'actualité, c'est une limitation critique.
Ce constat intervient alors que les éditeurs d'IA rivalisent pour positionner leurs modèles comme des assistants de recherche autonomes capables de naviguer sur internet. Les benchmarks traditionnels, construits sur des données historiques, masquaient cette faiblesse structurelle. LiveBrowseComp introduit une contrainte temporelle qui force une évaluation plus honnête des capacités réelles de navigation web. L'enjeu est de taille : si les classements sont rebattus sur cette base, la confiance accordée aux agents IA pour des tâches de recherche actuelle devra être sérieusement réévaluée.
Les entreprises et professionnels européens qui s'appuient sur ces agents pour de la veille ou de l'analyse d'actualité doivent réévaluer leur fiabilité pour tout contenu postérieur aux données d'entraînement.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


