Aller au contenu principal
Toutes les IA échouent à ce test d’humanité
RechercheNumerama12sem· 1 min de lecture

Toutes les IA échouent à ce test d’humanité

Source originale ↗·

Le 27 mars 2026, l'organisation ARC Prize a publié ARC-AGI-3, la troisième itération de son benchmark conçu pour mesurer la progression des systèmes d'IA vers une intelligence artificielle générale. Contrairement aux versions précédentes, ce nouveau test cible spécifiquement les IA dites « agentiques » — capables d'agir en séquences, d'explorer un environnement et d'apprendre en cours de tâche. Les meilleurs modèles actuels, y compris les systèmes de raisonnement d'OpenAI et de Google DeepMind, obtiennent des scores encore très inférieurs aux capacités humaines moyennes.

Ce résultat révèle une limite fondamentale des architectures actuelles : les grands modèles de langage excellent à reproduire des patterns vus en entraînement, mais peinent à généraliser dans des contextes inédits et interactifs. ARC-AGI-3 est conçu précisément pour être trivial pour un humain — quelques minutes suffisent — mais résistant aux techniques d'optimisation brute que l'industrie utilise pour doper ses benchmarks. Il mesure ce que Chollet appelle « l'efficience de généralisation », une capacité que les LLMs actuels ne possèdent pas structurellement.

ARC-AGI a été créé par François Chollet, ingénieur chez Google et auteur de Keras, qui défend depuis des années l'idée que les benchmarks standards sont saturés et trompeurs. La première version date de 2019 ; ARC-AGI-2, publié en 2025, avait déjà mis en difficulté les meilleurs modèles. ARC Prize, l'organisation derrière le projet, offre des récompenses financières pour inciter la communauté à trouver de nouvelles approches algorithmiques. Ce troisième volet marque une accélération du défi : tant que les IA échouent ici, les proclamations d'AGI restent prématurées.

Impact France/UE

Le benchmark est l'œuvre de François Chollet, ingénieur français chez Google, dont les conclusions sur les limites structurelles des LLMs pourraient peser dans les débats européens sur la définition réglementaire de l'AGI dans le cadre de l'AI Act.

💬 L'analyse de Mathieu

Je l'attendais, celle-là. Les meilleurs modèles du monde battus par n'importe quel humain en quelques minutes sur un truc conçu pour être trivial, ça remet les pieds sur terre quand tu lis les annonces AGI de la semaine. Chollet a raison depuis le début : on optimise des benchmarks, pas de l'intelligence.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles
1The Decoder 

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles

Trois figures majeures de l'intelligence artificielle ont exprimé des visions radicalement divergentes sur l'état actuel de la technologie. Yann LeCun, directeur de la recherche en IA chez Meta, affirme que les systèmes actuels ne sont pas véritablement intelligents. Demis Hassabis, PDG de Google DeepMind, pense au contraire que l'humanité se trouve déjà "dans les contreforts de la singularité". Oriol Vinyals, co-responsable du projet Gemini chez Google DeepMind, propose une lecture intermédiaire : les modèles d'aujourd'hui auraient semblé être une AGI il y a sept ans, mais ils demeurent incapables d'apprendre par l'expérience ou de produire de réelles percées scientifiques. Ce désaccord entre chercheurs de premier plan révèle une fracture profonde sur la trajectoire réelle de l'IA. La question n'est pas anodine : selon que l'on adopte la vision de LeCun ou celle de Hassabis, les priorités de recherche, les stratégies d'investissement et les cadres réglementaires changent radicalement. Des milliards de dollars et la crédibilité des grands laboratoires, OpenAI, Anthropic, Google DeepMind, Meta AI, sont directement en jeu. Ce débat s'inscrit dans une réflexion plus large sur ce que signifie réellement l'intelligence artificielle générale. LeCun critique depuis longtemps les grandes architectures de type transformeur, jugées insuffisantes pour atteindre une compréhension réelle du monde. Hassabis, lui, a prédit que l'AGI pourrait émerger d'ici quelques années. La position nuancée de Vinyals suggère que si les progrès sont indéniables, les verrous fondamentaux, notamment l'adaptation continue et la découverte autonome, demeurent entiers.

UELe débat sur la trajectoire réelle de l'IA influence indirectement le calibrage réglementaire européen, notamment les seuils de risque et les obligations de transparence prévus par l'AI Act.

💬 LeCun et Hassabis se contredisent frontalement, et c'est en fait le signal le plus intéressant de cette actu. Quand les deux personnes qui orientent des milliards de dollars de recherche n'arrivent pas à se mettre d'accord sur l'état actuel de l'IA, tous les cadres réglementaires qui essaient de calibrer des "niveaux de risque" reposent sur du vent. La position de Vinyals, nos modèles auraient bluffé tout le monde en 2019 mais les vrais verrous restent entiers, c'est la seule qui ressemble à quelque chose de solide.

RechercheOpinion
1 source
L'IA comme prolongement de l'intelligence humaine
2Microsoft Research 

L'IA comme prolongement de l'intelligence humaine

Une nouvelle approche théorique publiée dans le cadre d'une collaboration interdisciplinaire propose de revoir fondamentalement la façon dont on comprend les systèmes d'intelligence artificielle. Intitulée "The Origins of Artificial Intelligence in Natural Intelligence", cette recherche soutient que les grands modèles de langage ne sont ni des esprits humains en devenir, ni de simples outils statistiques sophistiqués, mais des extensions des structures cognitives propres à l'être humain. S'appuyant sur la phénoménologie du philosophe Edmund Husserl, les auteurs avancent que le langage humain contient déjà des structures sédimentées de compréhension du monde, et que les modèles d'IA apprennent précisément à modéliser et prolonger ces structures. Ce cadre théorique rejoint des travaux récents comme "The Blind Spot" d'Adam Frank, Marcelo Gleiser et Evan Thompson, ou encore "The Abstraction Fallacy" du chercheur de DeepMind Alexander Lerchner, qui posent tous la même question de fond : et si l'IA fonctionnait parce qu'elle s'appuie sur ce que les humains ont déjà construit ? Cette perspective permet d'expliquer à la fois les performances remarquables des modèles actuels et leurs limites récurrentes. Les LLM peuvent produire des textes cohérents dans des domaines très variés parce qu'ils ont appris les relations statistiques entre concepts à travers des milliards de textes humains. Mais ils hallucinent parce qu'ils étendent des patterns à l'intérieur du langage, sans être ancrés dans un rapport direct au monde. Là où un humain est constamment corrigé par l'expérience, un modèle prolonge des configurations linguistiques sans pouvoir vérifier leur rapport à la réalité. Cela explique aussi le "compositionality gap" documenté par la recherche : les modèles progressent beaucoup plus vite en fluidité et en rappel factuel qu'en raisonnement compositionnel véritable, c'est-à-dire la capacité à combiner des concepts de façon réellement nouvelle. Ce n'est pas simplement une limite d'ingénierie, disent les auteurs, mais une frontière structurelle. Sur le plan des implications, cette théorie déplace le débat sur la sécurité de l'IA : plutôt que de s'inquiéter d'une "IA renégate" qui surpasserait l'intelligence humaine, elle invite à traiter la sécurité comme un défi de système, relevant à la fois de l'ingénierie et de la gouvernance. Concevoir l'IA comme une extension de l'intelligence humaine, et non comme son remplacement, offre un cadre plus opérationnel pour construire des systèmes fiables. Dans un contexte où les investissements dans les LLM atteignent des niveaux records et où les débats sur l'alignement et les risques existentiels monopolisent l'attention, cette approche phénoménologique propose une voie plus sobre : comprendre ce que l'IA est vraiment avant de décider ce qu'elle pourrait devenir.

RecherchePaper
1 source
Notes complémentaires sur la délégation à l'IA et la fiabilité à long terme
3Microsoft Research 

Notes complémentaires sur la délégation à l'IA et la fiabilité à long terme

Une équipe de chercheurs vient de publier une étude intitulée "LLMs Corrupt Your Documents When You Delegate", qui examine la fiabilité des modèles de langage lorsqu'on leur confie des tâches longues et répétées sur des fichiers importants. Le protocole d'évaluation, baptisé DELEGATE-52, soumet les modèles à des séquences de transformations et d'inversions appliquées à des documents, des feuilles de calcul, du code ou des fichiers structurés, sans supervision humaine entre chaque étape. Les résultats sont significatifs : sur 20 itérations de délégation, les meilleurs modèles du marché affichent une dégradation de la fidélité sémantique comprise entre 19 et 34 %. Exception notable, les flux de travail en Python se montrent bien plus robustes, avec une dégradation inférieure à 1 % en moyenne. Les erreurs mesurées portent sur le contenu sémantique réel des artefacts, et non sur des différences de mise en forme ou de style. Ces chiffres interpellent, mais leur portée exacte mérite d'être précisée. La recherche ne mesure ni le taux de complétion des tâches, ni la satisfaction des utilisateurs : elle se concentre exclusivement sur l'intégrité du contenu sur la durée. Or, dans les environnements de production actuels, des mécanismes comme les boucles de vérification, l'orchestration multi-agents et les outils spécialisés par domaine permettent déjà d'atténuer ces effets. L'enjeu concret est ailleurs : les bonnes performances d'un modèle sur des tâches courtes ne garantissent pas une exécution fiable sur des workflows longs et peu supervisés, ce qui a des implications directes pour les entreprises qui automatisent des processus critiques impliquant des documents financiers, juridiques ou techniques. Ce travail s'inscrit dans un débat plus large sur le fossé entre les scores obtenus par les modèles sur des benchmarks standardisés et leur comportement réel dans des contextes professionnels complexes. L'objectif des chercheurs n'est pas de décourager le recours à l'IA dans les workflows métiers, mais d'identifier précisément les zones de fragilité qui nécessitent encore des efforts de recherche et d'ingénierie. DELEGATE-52 se veut un outil de diagnostic, une sorte de test de stress pour la délégation longue durée, et non une mesure globale des capacités des modèles. La prochaine étape pour l'industrie sera de concevoir des architectures d'agents capables de maintenir la cohérence sémantique sur de longues séquences d'actions, un problème ouvert qui conditionne la confiance que l'on peut raisonnablement accorder aux assistants IA autonomes.

UELes entreprises européennes automatisant des workflows documentaires critiques (juridiques, financiers, techniques) sont directement exposées à ce risque de dégradation sémantique cumulative dans leurs pipelines d'agents IA peu supervisés.

💬 20 itérations, 19 à 34% de dérive sémantique sur tes documents. Ce que je retiens surtout c'est le contraste avec les workflows Python, quasi intacts à moins de 1%, parce que le code ne tolère pas l'ambiguïté là où le texte laisse toujours une porte ouverte. Tant qu'on n'a pas résolu ça pour le non-structuré, je ne délègue pas un flux critique sans filet.

RecherchePaper
1 source
Sam Altman affirme que toute une génération de chercheurs a freiné l'IA en sous-estimant le potentiel du passage à l'échelle
4The Decoder 

Sam Altman affirme que toute une génération de chercheurs a freiné l'IA en sous-estimant le potentiel du passage à l'échelle

Lors d'une conférence à Stanford, Sam Altman a pris la défense du scaling des grands modèles de langage et s'en est pris directement aux chercheurs sceptiques, affirmant qu'une génération entière de scientifiques a freiné l'avancement de l'IA en sous-estimant ce que l'augmentation de la puissance de calcul et des données pouvait produire. Pour étayer son propos, le PDG d'OpenAI a cité un résultat récent de son entreprise : la réfutation automatisée d'une conjecture mathématique, un type de raisonnement abstrait longtemps considéré hors de portée des systèmes actuels. Cette prise de position tranche dans un débat qui agite le monde de la recherche depuis plusieurs années. De nombreux académiciens et chercheurs avaient soutenu que le scaling seul ne suffirait pas à produire une intelligence générale, et que des approches fondamentalement différentes seraient nécessaires. Si Altman a raison, ces voix critiques n'ont pas seulement eu tort sur le plan technique : elles ont activement ralenti les investissements et les orientations de recherche vers une voie qui s'avère productive. L'enjeu dépasse la fierté intellectuelle, il touche à l'allocation de milliards de dollars en R&D. Le contexte est celui d'une période charnière pour OpenAI, qui multiplie les démonstrations de capacités avancées pour justifier sa valorisation dépassant les 300 milliards de dollars. Les lois de scaling, théorisées notamment par les chercheurs de DeepMind et OpenAI autour de 2020, avaient déjà divisé la communauté. La sortie de modèles comme o3 et GPT-4o relance la question : le scaling est-il un plafond ou une rampe, et qui avait vraiment raison ?

💬 Altman a raison, même si c'est très pratique de le dire quand on vaut 300 milliards. Les paris de recherche se paient cash : sous-estimer le scaling pendant dix ans, c'est des milliards réorientés vers des impasses et des années brûlées pour tout le secteur. La conjecture mathématique réfutée automatiquement, c'est le genre de résultat qui rend le débat difficile à esquiver.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic