Le ground truth est un processus, pas un jeu de données
Le groupe AGI d'Amazon a publié sur arXiv une étude qui remet en cause une des hypothèses fondamentales de l'évaluation des systèmes d'intelligence artificielle : l'idée que la « vérité de référence » (ground truth) est un ensemble de données fixe et fiable. Pour construire un outil capable de vérifier la fiabilité factuelle des rapports de recherche générés par l'IA, les chercheurs ont recruté des experts de niveau doctoral en informatique, théorie du contrôle, santé publique et ingénierie environnementale. Résultat inattendu : livrés à eux-mêmes, ces spécialistes n'ont obtenu que 60,8 % de précision sur un ensemble de réponses déjà connues, utilisé comme contrôle interne. Ce taux révèle non pas un manque d'expertise, mais la difficulté intrinsèque d'une tâche qui exige lecture longue, synthèse multi-documents et attention soutenue.
Ce constat a conduit l'équipe à repenser en profondeur la manière dont on construit un benchmark. Plutôt que de traiter les étiquettes initiales des experts comme une vérité incontestable, les chercheurs ont développé un protocole appelé « audit-then-score » : lorsque le système de vérification automatique, DeepFact-Eval, conteste une réponse humaine, il ne se voit pas simplement pénalisé. Il doit soumettre des preuves concrètes et une argumentation écrite. Un auditeur, humain ou automatisé, compare alors cette contestation avec la justification originale, et si le challenger l'emporte, le benchmark est corrigé avant que le modèle ne soit noté. Ce renversement de logique est significatif : dans les tâches cognitivement exigeantes, un désaccord entre le modèle et le benchmark n'est plus automatiquement interprété comme une erreur du modèle, mais comme un signal potentiel d'ambiguïté dans les données d'évaluation elles-mêmes.
L'enjeu dépasse largement Amazon. Les systèmes d'IA augmentés de recherche, capables de produire des synthèses longues combinant des dizaines de sources, se multiplient chez OpenAI, Google, Perplexity et d'autres acteurs. Ces rapports ressemblent de plus en plus à des analyses d'expert, mais leurs affirmations peuvent fusionner des éléments de plusieurs documents d'une façon qu'aucun outil de vérification classique ne sait traiter. Les outils existants sont conçus pour faire correspondre une affirmation à une courte citation ; ils échouent dès qu'une phrase dépend du contexte global d'un rapport. L'équipe publie conjointement DeepFact-Bench, un jeu de tests partagé pour comparer les systèmes, et DeepFact-Eval, le vérificateur automatique capable de planifier des recherches dans la littérature, de résumer les documents récupérés et de poser des questions complémentaires. La conclusion structurelle est claire : à mesure que les sorties de l'IA gagnent en complexité, la vérité de référence ne peut plus être un dataset statique, elle doit devenir un processus itératif.
La méthodologie d'audit itératif pourrait indirectement influencer les standards d'évaluation des systèmes IA à haut risque imposés par l'AI Act européen.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




