Aller au contenu principal
Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution
RechercheThe Decoder6sem· 1 min de lecture

Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution

Source originale ↗·

Un consortium de 64 mathématiciens a conçu SOOHAK, un nouveau benchmark destiné à évaluer les capacités des modèles d'IA en mathématiques de recherche. L'outil comprend 439 problèmes rédigés à la main, dont 99 délibérément sans solution valide. Sur les problèmes de niveau recherche, Gemini 3 Pro de Google arrive en tête avec un score de 30 %. En revanche, aucun modèle ne dépasse 50 % lorsqu'il s'agit d'identifier les problèmes insolubles, autrement dit, tous les systèmes testés échouent à reconnaître qu'une question n'a pas de réponse.

Ce résultat pointe une faille fondamentale : davantage de puissance de calcul améliore la capacité à résoudre des problèmes, mais n'améliore pas la capacité à admettre qu'un problème est sans issue. Pour un outil censé assister des chercheurs, cette lacune est critique. Un modèle qui répond avec assurance à une question mal posée ou insoluble est potentiellement plus dangereux qu'un modèle qui avoue ses limites, il peut induire en erreur des équipes entières.

SOOHAK s'inscrit dans un effort plus large pour dépasser les benchmarks saturés ou trop faciles à "tricher", qui donnent une impression trompeuse des capacités réelles des IA. La communauté scientifique cherche à mesurer non seulement la performance brute, mais aussi la métacognition, savoir ce qu'on ne sait pas. Avec des scores plafonnant à 30 % sur des tâches de recherche authentique, SOOHAK confirme que les modèles actuels restent loin d'un niveau de raisonnement mathématique avancé, malgré les annonces régulières de progrès spectaculaires.

💬 L'analyse de Mathieu

La vraie info ici, c'est pas le 30 % de Gemini, c'est le moins de 50 % sur les problèmes sans solution. Aucun modèle ne sait dire "cette question est mal posée", et c'est exactement le genre de bug silencieux qui peut planter un projet de recherche entier. Reste à voir combien d'équipes scientifiques utilisent ces outils sans savoir ça.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans
1Ars Technica AI 

Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans

En mai 2026, OpenAI a annoncé qu'un de ses modèles d'IA internes avait réfuté la conjecture des distances unitaires d'Erdős, un problème de géométrie discrète resté sans solution depuis quatre-vingt ans. La conjecture, formulée par le mathématicien hongrois Paul Erdős, porte sur le nombre maximal de paires de points situés à distance exactement 1 dans un ensemble de points du plan. Avant de rendre le résultat public, OpenAI a accordé un accès anticipé à plusieurs mathématiciens reconnus, qui ont pu examiner et valider la démonstration. Les réactions de la communauté mathématique témoignent de l'importance du résultat. Tim Gowers, médaillé Fields, la plus haute distinction en mathématiques, a qualifié cette résolution de « jalon dans les mathématiques par l'IA ». Daniel Litt, professeur à l'Université de Toronto, a souligné qu'il s'agissait du « premier exemple d'un résultat produit de manière autonome par une IA qu'il trouve passionnant en lui-même, et non comme simple indicateur précoce ». Cette nuance est cruciale : les précédentes démonstrations assistées par IA étaient surtout perçues comme des signaux de progression future, pas comme des contributions mathématiques réelles. Ce résultat intervient dans un contexte où les grands laboratoires d'IA rivalisent pour démontrer des capacités de raisonnement formel avancé. Google DeepMind, OpenAI et d'autres investissent massivement dans des systèmes capables de produire des preuves mathématiques vérifiables. Résoudre un problème ouvert depuis 1946 franchit un seuil symbolique : l'IA ne se contente plus d'assister le mathématicien humain, elle produit des découvertes originales que la communauté scientifique reconnaît comme telles.

UELes mathématiciens et chercheurs européens devront revoir leur rapport à l'IA comme outil de découverte scientifique autonome, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

RecherchePaper
1 source
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
2VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source
Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources
3The Decoder 

Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources

Les grands modèles d'IA comme GPT d'OpenAI et Gemini de Google commettent régulièrement une erreur subtile mais préoccupante : lorsqu'ils analysent des documents, ils citent des passages qui ne soutiennent pas réellement leurs réponses. Des chercheurs de l'Université de Pékin ont formalisé ce phénomène sous le nom d'"hallucination d'attribution". Concrètement, le modèle peut fournir une réponse correcte tout en pointant vers une source incorrecte ou hors de propos. Pour mesurer ce problème de façon systématique, l'équipe a développé CiteVQA, le premier benchmark spécifiquement conçu pour évaluer la fiabilité des citations dans les réponses des modèles de langage. Ce défaut représente un risque sérieux dans les domaines réglementés comme le droit, la médecine ou la finance, où la traçabilité des sources n'est pas optionnelle mais légalement ou éthiquement requise. Un professionnel qui s'appuie sur une réponse d'IA et cite la source indiquée pourrait se retrouver à défendre une affirmation avec une référence qui ne la justifie pas. La distinction entre "avoir raison" et "citer correctement" est fondamentale : une réponse juste avec une mauvaise source est potentiellement aussi dangereuse qu'une réponse fausse. Ce problème s'inscrit dans un débat plus large sur la fiabilité des systèmes RAG (Retrieval-Augmented Generation), qui combinent recherche documentaire et génération de texte. Alors que les entreprises déploient massivement ces outils pour l'analyse de contrats, de dossiers médicaux ou de rapports financiers, la capacité à vérifier d'où provient une information devient critique. CiteVQA devrait servir de référence pour pousser les laboratoires à corriger ce biais dans leurs prochaines versions de modèles.

UELes secteurs réglementés européens (droit, médecine, finance) sont directement exposés : l'EU AI Act impose la traçabilité des systèmes IA à haut risque, et ce défaut de citation pourrait constituer une non-conformité lors des audits.

💬 C'est le bug silencieux des systèmes RAG : la réponse est bonne, mais la source pointe ailleurs. Dans les secteurs où un avocat ou un médecin doit tracer chaque information, ça ne passe pas à l'audit. CiteVQA arrive au bon moment, reste à voir si les labs vont vraiment corriger ça ou juste l'intégrer dans leurs benchmarks de comm.

RecherchePaper
1 source
SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation
4Meta Engineering ML 

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Meta a présenté SilverTorch, un nouveau système de recommandation qui transforme en profondeur la façon dont les plateformes comme Instagram ou Facebook sélectionnent les contenus affichés dans les fils d'actualité et les sections Reels. Accepté au programme complet de la conférence SIGIR 2026, ce travail de recherche introduit un paradigme inédit baptisé "Index as Model" : l'ensemble du pipeline de récupération de contenus est réuni dans un seul réseau de neurones, là où existaient auparavant une douzaine de microservices distincts. Dans une évaluation portant sur 80 millions d'éléments, SilverTorch a traité 23,7 fois plus de requêtes par seconde qu'une architecture traditionnelle multi-services construite sur la même base de modèle, tout en améliorant l'efficacité du coût total d'exploitation d'un facteur 20,9 par rapport à une solution CPU classique, et ce sans dépasser le seuil critique de 100 millisecondes de latence imposé par les contraintes temps réel. L'enjeu est considérable pour des plateformes servant des milliards d'utilisateurs quotidiens. Le système de récupération est l'étape qui réduit un catalogue de millions de contenus à quelques milliers de candidats pertinents avant de les transmettre aux algorithmes de classement final, le tout en moins de 100 millisecondes. L'architecture à base de microservices atteignait un plafond structurel : chaque saut entre services entraînait des pertes de latence et limitait la complexité des modèles qu'il était possible d'utiliser. En intégrant dans un même réseau de neurones la recherche par similarité d'intérêts, le filtrage d'éligibilité géographique et linguistique, puis le réordonnancement multi-tâches selon les probabilités d'engagement, SilverTorch rend pratiques des opérations qui étaient auparavant hors de portée dans ce budget de latence. Le résultat concret : une qualité de recommandation sensiblement supérieure, directement visible dans ce que les utilisateurs voient en premier lorsqu'ils ouvrent leurs applications. Les systèmes de recommandation industriels ont longtemps été construits comme des maillages de microservices hétérogènes, chacun avec son propre cycle de déploiement et souvent son propre langage de programmation, héritage de l'ère CPU où cette fragmentation était un avantage opérationnel. Avec la montée en puissance des GPU et des modèles de deep learning de plus en plus complexes, ce modèle architectural montrait ses limites : la fragmentation créait des frictions et bridait l'innovation. SilverTorch représente une réponse directe à cette contrainte en traitant les index d'items, autrefois gérés comme des bases de données séparées, comme de simples tenseurs à l'intérieur du modèle. Cette approche ouvre la voie à des systèmes de recommandation encore plus sophistiqués et pourrait influencer l'ensemble du secteur, qui fait face aux mêmes compromis entre complexité des modèles, latence et coûts d'infrastructure à très grande échelle.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic