L'Institut britannique de sécurité de l'IA constate que les benchmarks standards sous-estiment les capacités réelles des agents IA
Le UK AI Security Institute (AISI) a publié une étude portant sur sept benchmarks utilisés pour évaluer les capacités des agents d'intelligence artificielle, révélant que ces tests sous-estiment systématiquement leurs performances réelles. La cause identifiée est simple: les protocoles d'évaluation standards imposent un budget de calcul (mesuré en tokens) trop restreint aux modèles testés. En multipliant ce budget par dix sur des tâches d'ingénierie logicielle, les chercheurs de l'AISI ont observé une hausse d'environ 25 points de pourcentage du taux de réussite. Les modèles les plus récents profitent le plus de cette marge supplémentaire, suggérant que les benchmarks actuels plafonnent artificiellement leurs scores. Selon les calculs de l'institut, une fois ce facteur pris en compte, la progression réelle des capacités des modèles de pointe serait environ 60% plus rapide que ce que les mesures précédentes laissaient penser.
Cette découverte a des implications directes pour l'industrie et les décideurs qui s'appuient sur ces classements pour évaluer les risques et les capacités des systèmes d'IA. Si les benchmarks sous-estiment structurellement ce que les agents peuvent accomplir, les entreprises, régulateurs et chercheurs en sécurité qui s'en servent pour anticiper les usages potentiellement dangereux ou pour comparer les modèles entre eux travaillent avec une image faussée de la réalité. Cela concerne en particulier les tâches longues et complexes, où un agent disposant de plus de ressources de calcul peut explorer davantage de pistes, corriger ses erreurs et itérer avant de produire une réponse finale.
L'AISI, agence britannique chargée d'évaluer les risques liés à l'intelligence artificielle avancée, cherche depuis sa création à établir des méthodes de test rigoureuses pour suivre l'évolution des capacités des modèles les plus puissants. Ce travail s'inscrit dans un débat plus large sur la fiabilité des benchmarks existants, régulièrement critiqués pour ne pas refléter les conditions réelles d'utilisation des agents IA, notamment lorsqu'ils opèrent en autonomie prolongée. Ces résultats pourraient pousser les organismes d'évaluation à revoir leurs protocoles de test, avec des budgets de calcul plus réalistes, afin de mieux anticiper la trajectoire réelle des progrès de l'IA et les risques associés.
Le Royaume-Uni n'etant plus membre de l'UE, cette etude n'a pas d'impact reglementaire direct, mais ses conclusions pourraient interesser les evaluateurs europeens (dont l'UE dans le cadre de l'AI Act) qui s'appuient sur des benchmarks similaires pour jauger les risques des agents IA.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



