Une étude menée par des chercheurs de l'Institut de technologie de Harbin révèle que les grands agents de recherche IA, comme GPT-5.4 d'OpenAI ou Kimi K2.6 de Moonshot AI, font bien moins de recherches web réelles qu'ils ne le laissent entendre. Ces systèmes puisent davantage dans leurs connaissances préexistantes plutôt que d'explorer véritablement le web en temps réel, un biais de confirmation à l'échelle machine. Dans des contextes où la fraîcheur de l'information est critique, c'est une limite sérieuse que les utilisateurs professionnels doivent intégrer.
Microsoft répond à l'enjeu de la gouvernance des agents avec son Agent Governance Toolkit, un cadre qui contrôle et journalise les actions des agents avant leur exécution. L'idée : aucune action non autorisée ne passe, chaque décision est validée par une politique explicite et laisse une trace d'audit. Un outil pensé pour les équipes qui veulent déployer des agents en production sans perdre le contrôle.
Côté recherche académique, une étude de grande envergure, 208 000 participants, 26 millions de réponses, met en lumière un paradoxe fondamental : plus on affine un modèle pour le rendre utile et agréable, moins il est capable de simuler fidèlement le comportement humain. Ces trois signaux pointent vers la même tension de fond : l'IA agentique progresse vite, mais entre des systèmes qui survendent leurs capacités, des garde-fous à construire d'urgence et des arbitrages de design aux conséquences encore mal comprises, la course à la maturité n'en est qu'à ses débuts.
