
Toutes les IA échouent à ce test d’humanité
Le 27 mars 2026, l'organisation ARC Prize a publié ARC-AGI-3, la troisième itération de son benchmark conçu pour mesurer la progression des systèmes d'IA vers une intelligence artificielle générale. Contrairement aux versions précédentes, ce nouveau test cible spécifiquement les IA dites « agentiques » — capables d'agir en séquences, d'explorer un environnement et d'apprendre en cours de tâche. Les meilleurs modèles actuels, y compris les systèmes de raisonnement d'OpenAI et de Google DeepMind, obtiennent des scores encore très inférieurs aux capacités humaines moyennes.
Ce résultat révèle une limite fondamentale des architectures actuelles : les grands modèles de langage excellent à reproduire des patterns vus en entraînement, mais peinent à généraliser dans des contextes inédits et interactifs. ARC-AGI-3 est conçu précisément pour être trivial pour un humain — quelques minutes suffisent — mais résistant aux techniques d'optimisation brute que l'industrie utilise pour doper ses benchmarks. Il mesure ce que Chollet appelle « l'efficience de généralisation », une capacité que les LLMs actuels ne possèdent pas structurellement.
ARC-AGI a été créé par François Chollet, ingénieur chez Google et auteur de Keras, qui défend depuis des années l'idée que les benchmarks standards sont saturés et trompeurs. La première version date de 2019 ; ARC-AGI-2, publié en 2025, avait déjà mis en difficulté les meilleurs modèles. ARC Prize, l'organisation derrière le projet, offre des récompenses financières pour inciter la communauté à trouver de nouvelles approches algorithmiques. Ce troisième volet marque une accélération du défi : tant que les IA échouent ici, les proclamations d'AGI restent prématurées.
Le benchmark est l'œuvre de François Chollet, ingénieur français chez Google, dont les conclusions sur les limites structurelles des LLMs pourraient peser dans les débats européens sur la définition réglementaire de l'AGI dans le cadre de l'AI Act.
Je l'attendais, celle-là. Les meilleurs modèles du monde battus par n'importe quel humain en quelques minutes sur un truc conçu pour être trivial, ça remet les pieds sur terre quand tu lis les annonces AGI de la semaine. Chollet a raison depuis le début : on optimise des benchmarks, pas de l'intelligence.



