RechercheApple Machine Learning21h· 1 min de lecture

Neuf juges, deux votes effectifs : les erreurs corrélées fragilisent les panels d'évaluation des LLM

Une nouvelle étude remet en question la fiabilité des panels de juges LLM, une pratique de plus en plus répandue pour évaluer la qualité des sorties de modèles de langage. Les chercheurs ont testé un panel de neuf modèles de pointe issus de sept familles différentes sur trois jeux de données d'inférence en langage naturel, chacun annoté par 100 humains. Leur conclusion est sans appel : ces neuf juges ne fournissent en réalité que l'équivalent d'environ deux votes indépendants en termes d'information utile.

Ce résultat a des implications directes pour l'industrie de l'IA, qui s'appuie massivement sur ces panels pour évaluer et comparer les modèles à grande échelle. L'idée était que multiplier les modèles évaluateurs permettait de réduire les biais individuels et d'obtenir des jugements plus robustes. Or, les trois quarts de l'indépendance nominale du panel s'évaporent en raison d'erreurs corrélées : les modèles partagent des angles morts systématiques, probablement issus de données d'entraînement et d'architectures similaires, et échouent souvent sur les mêmes exemples.

Cette recherche s'inscrit dans une remise en cause plus large de la méthode LLM-as-a-judge, popularisée comme alternative peu coûteuse à l'évaluation humaine. Des travaux précédents avaient déjà signalé des biais de position ou de verbosité dans ces juges automatiques. La nouvelle contribution est de quantifier précisément la perte d'information indépendante, outillant ainsi les équipes de recherche pour concevoir des panels d'évaluation plus efficaces, potentiellement en privilégiant la diversité architecturale réelle plutôt que le simple nombre de modèles.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

PhysCodeBench : évaluation de la simulation symbolique 3D physique par affinement multi-agents auto-correctif

Une équipe de chercheurs vient de publier PhysCodeBench, le premier benchmark dédié à l'évaluation de la simulation symbolique physiquement réaliste de scènes 3D. Ce jeu d'évaluation comprend 700 échantillons construits manuellement, couvrant trois domaines de la physique : la mécanique classique, la dynamique des fluides et la physique des corps mous. Chaque échantillon a été annoté par des experts et soumis à un double critère d'évaluation : l'exécutabilité du code généré d'une part, et sa précision physique d'autre part, mesurée à la fois de manière automatique et visuelle. Dans ce cadre, les chercheurs ont également développé SMRF (Self-Corrective Multi-Agent Refinement Framework), une architecture composée de trois agents spécialisés, un générateur de simulation, un correcteur d'erreurs et un raffineur, qui collaborent de façon itérative pour produire des environnements de simulation fidèles aux lois physiques. SMRF obtient un score global de 67,7 points, contre 36,3 points pour le meilleur modèle de référence testé, soit un gain de 31,4 points. Cet écart de performance n'est pas anodin : il illustre les limites profondes des grands modèles de langage actuels face à la traduction de descriptions physiques en code de simulation exécutable et précis. Pour la robotique et l'IA incarnée, cette capacité est fondamentale, un robot qui planifie ses actions dans un environnement virtuel doit pouvoir s'appuyer sur des simulations fidèles à la réalité physique. Le fait que l'architecture multi-agents surpasse significativement les approches à agent unique montre que la correction itérative des erreurs, plutôt que la génération directe, est la clé pour combler ce fossé sémantique. Ce travail s'inscrit dans une tendance plus large visant à spécialiser les LLM pour des domaines scientifiques exigeants, où la précision factuelle dépasse les capacités de la génération de texte généraliste. Jusqu'à présent, aucun benchmark standardisé ne permettait de mesurer la qualité de la simulation physique générée par IA, rendant les comparaisons entre systèmes impossibles. PhysCodeBench comble ce vide et ouvre la voie à des évaluations rigoureuses dans des secteurs comme la simulation industrielle, la recherche en robotique ou le calcul scientifique, où les modèles devront prochainement rivaliser avec des moteurs physiques spécialisés.

RecherchePaper

1 source

2Apple Machine Learning

De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux

Des chercheurs ont publié SFI-Bench (Spatial-Functional Intelligence Benchmark), un nouveau cadre d'évaluation conçu pour tester une forme plus avancée d'intelligence spatiale chez les grands modèles de langage multimodaux. Le benchmark comprend plus de 1 700 questions tirées de vidéos égocentrées d'intérieurs domestiques filmées sous différents angles, couvrant des environnements variés du quotidien. Contrairement aux benchmarks existants comme VSI-Bench, SFI-Bench ne se contente pas de demander aux modèles où se trouvent les objets, mais cherche à évaluer s'ils comprennent à quoi ces objets servent dans leur contexte réel. Cette distinction est fondamentale pour le développement d'agents IA capables d'agir dans le monde physique. Un robot ou un assistant visuel qui sait qu'une tasse est posée sur la table, mais ne comprend pas qu'elle sert à boire, sera incapable de planifier des actions cohérentes dans un environnement domestique. SFI-Bench cible précisément ce niveau cognitif supérieur, appelé intelligence fonctionnelle, qui conditionne l'autonomie réelle des agents multimodaux dans des tâches de robotique domestique, d'assistance aux personnes ou de navigation intelligente. La course aux benchmarks spatiaux s'est accélérée ces deux dernières années, à mesure que les modèles comme GPT-4o, Gemini et les LLM open-source progressaient en perception visuelle. Les évaluations géométriques de base ne suffisent plus à différencier les systèmes les plus capables. SFI-Bench s'inscrit dans un effort plus large de la communauté pour définir des critères d'évaluation alignés sur des usages concrets, et pourrait devenir une référence incontournable pour mesurer la maturité des agents embarqués ou des assistants visuels de prochaine génération.

RecherchePaper

1 source

3VentureBeat AI

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper

1 source

4Apple Machine Learning

VSAS-Bench : évaluation en temps réel des modèles d'assistants visuels en flux continu

Des chercheurs ont proposé VSAS-Bench, un nouveau cadre d'évaluation conçu spécifiquement pour les modèles de vision-langage (VLM) opérant en temps réel sur des flux vidéo continus. Contrairement aux benchmarks existants, qui évaluent les modèles dans des conditions hors ligne, c'est-à-dire sur des vidéos enregistrées et traitées après coup, VSAS-Bench cible un cas d'usage fondamentalement différent : celui des assistants visuels capables de percevoir et de répondre à un flux d'images en direct, de manière continue et sans interruption. Cette distinction est loin d'être anodine. Un modèle performant en mode hors ligne peut se révéler inutilisable en conditions réelles s'il répond avec retard ou si ses sorties manquent de cohérence d'une seconde à l'autre. VSAS-Bench introduit deux métriques inédites pour capturer ces dimensions : la proactivité, qui mesure la rapidité avec laquelle le modèle produit une réponse pertinente au bon moment, et la consistance, qui évalue la stabilité de ces réponses dans le temps. Ces critères sont essentiels pour des applications comme la surveillance automatique, l'assistance aux personnes ou les interfaces homme-machine en temps réel. Les VLM en streaming constituent un domaine en pleine émergence, porté par la montée en puissance des assistants embarqués et des robots dotés de perception visuelle. Jusqu'ici, l'absence de benchmarks adaptés freinait la comparaison objective entre systèmes. VSAS-Bench comble ce manque méthodologique et devrait accélérer la recherche sur les modèles capables de traiter des flux vidéo de façon proactive, ouvrant la voie à une nouvelle génération d'assistants visuels véritablement interactifs.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic