
Neuf juges, deux votes effectifs : les erreurs corrélées fragilisent les panels d'évaluation des LLM
Une nouvelle étude remet en question la fiabilité des panels de juges LLM, une pratique de plus en plus répandue pour évaluer la qualité des sorties de modèles de langage. Les chercheurs ont testé un panel de neuf modèles de pointe issus de sept familles différentes sur trois jeux de données d'inférence en langage naturel, chacun annoté par 100 humains. Leur conclusion est sans appel : ces neuf juges ne fournissent en réalité que l'équivalent d'environ deux votes indépendants en termes d'information utile.
Ce résultat a des implications directes pour l'industrie de l'IA, qui s'appuie massivement sur ces panels pour évaluer et comparer les modèles à grande échelle. L'idée était que multiplier les modèles évaluateurs permettait de réduire les biais individuels et d'obtenir des jugements plus robustes. Or, les trois quarts de l'indépendance nominale du panel s'évaporent en raison d'erreurs corrélées : les modèles partagent des angles morts systématiques, probablement issus de données d'entraînement et d'architectures similaires, et échouent souvent sur les mêmes exemples.
Cette recherche s'inscrit dans une remise en cause plus large de la méthode LLM-as-a-judge, popularisée comme alternative peu coûteuse à l'évaluation humaine. Des travaux précédents avaient déjà signalé des biais de position ou de verbosité dans ces juges automatiques. La nouvelle contribution est de quantifier précisément la perte d'information indépendante, outillant ainsi les équipes de recherche pour concevoir des panels d'évaluation plus efficaces, potentiellement en privilégiant la diversité architecturale réelle plutôt que le simple nombre de modèles.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




