Aller au contenu principal
RechercheThe Decoder3h

AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars

Résumé IASource uniqueImpact UE
Source originale ↗·

Google DeepMind a annoncé qu'AlphaProof Nexus, son système d'IA dédié aux démonstrations mathématiques formelles, a résolu de manière autonome neuf problèmes ouverts d'Erdős, dont deux qui avaient résisté aux mathématiciens pendant 56 ans. Le coût d'inférence par problème résolu s'élève à quelques centaines de dollars seulement. Contrairement à l'approche en langage naturel d'OpenAI, AlphaProof Nexus s'appuie sur le compilateur Lean pour vérifier automatiquement chaque étape d'une démonstration, garantissant ainsi une rigueur formelle totale. Le taux de réussite global du système reste cependant modeste, à 2,5 %.

L'enjeu est considérable : des problèmes ouverts depuis plus d'un demi-siècle, qui auraient pu mobiliser des équipes de chercheurs pendant des années, sont désormais accessibles à une machine pour un coût marginal. La vérification automatique via Lean élimine par ailleurs le risque d'erreurs subtiles qui persistent parfois dans les preuves humaines, ce qui confère à ces résultats une crédibilité immédiate auprès de la communauté mathématique.

Les problèmes d'Erdős constituent une catégorie à part en mathématiques combinatoires : Paul Erdős, prolifique mathématicien hongrois du XXe siècle, avait formulé des centaines de conjectures et offert des récompenses en argent pour leur résolution. AlphaProof, lancé par DeepMind en 2024 après une performance remarquée à l'Olympiade internationale de mathématiques, s'impose progressivement face à des approches concurrentes comme o3 d'OpenAI. Un taux de succès de 2,5 % peut sembler faible, mais sur l'ensemble du corpus mathématique ouvert, il représente une avancée sans précédent pour une machine.

Impact France/UE

Les laboratoires de mathématiques et d'informatique européens (CNRS, ENS, instituts Max Planck) pourraient bénéficier de ces outils de preuve formelle automatisée pour accélérer la résolution de problèmes ouverts à moindre coût.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars
1Latent Space 

GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars

OpenAI a annoncé début mai 2026 qu'un modèle interne, vraisemblablement une version intermédiaire de GPT-5, surnommée GPT-5.6, a réfuté une conjecture mathématique vieille de 80 ans : le problème des distances unitaires planes, posé par le mathématicien hongrois Paul Erdős en 1946. Le modèle a produit ce résultat en moins de 32 heures de calcul, pour un coût estimé à moins de 1 000 dollars. Concrètement, il a découvert une nouvelle famille de constructions géométriques qui dépasse les meilleures solutions connues basées sur les grilles carrées. Le raisonnement généré s'étend sur environ 125 pages, avec un passage en page 39 qui a particulièrement attiré l'attention de la communauté mathématique. Il s'agit techniquement d'une réfutation, pas d'une preuve, ce qui, selon les auteurs, rend le résultat légèrement moins spectaculaire qu'il aurait pu être, mais significatif malgré tout. Ce qui frappe les observateurs, c'est que le modèle utilisé n'est pas un système spécialisé comme AlphaProof ou un prouveur formel de type Lean, mais un LLM généraliste. Le mathématicien Timothy Gowers, médaille Fields 1998, a qualifié ce résultat de "premier exemple vraiment clair" où une IA résout un problème mathématique ouvert de renom. Le chercheur d'OpenAI Hongxun Wu y voit une démonstration de capacités de raisonnement sur des "problèmes de la plus haute difficulté". L'implication est importante : si un modèle généraliste peut progresser sur des problèmes ouverts en géométrie discrète, le même type de raisonnement pourrait s'appliquer à d'autres domaines scientifiques, biologie, physique, chimie computationnelle. OpenAI a précisé que le modèle n'a pas été poussé à ses limites et sera mis à disposition du public. Ce résultat s'inscrit dans une dynamique plus large autour du calcul à l'inférence : l'idée que donner plus de temps de réflexion à un modèle, plutôt que d'entraîner un modèle plus grand, est le levier dominant du progrès actuel. La longueur inhabituelle du raisonnement produit (125 pages) illustre précisément cette approche. En parallèle, Cohere a publié cette même semaine Command A+, son premier modèle entièrement open source sous licence Apache 2.0 : 218 milliards de paramètres en architecture MoE avec 25 milliards actifs, multimodal, compatible 48 langues, et capable de tourner sur seulement deux GPU H100 en quantification W4A4. Les benchmarks le placent au niveau de Claude 4.5 Haiku avec de bonnes performances en évitement des hallucinations, mais en retrait sur le raisonnement scientifique et le code par rapport aux modèles de tête. Ces deux annonces confirment une semaine de mai 2026 particulièrement dense pour l'IA de frontière.

RecherchePaper
1 source
Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution
2The Decoder 

Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution

Un consortium de 64 mathématiciens a conçu SOOHAK, un nouveau benchmark destiné à évaluer les capacités des modèles d'IA en mathématiques de recherche. L'outil comprend 439 problèmes rédigés à la main, dont 99 délibérément sans solution valide. Sur les problèmes de niveau recherche, Gemini 3 Pro de Google arrive en tête avec un score de 30 %. En revanche, aucun modèle ne dépasse 50 % lorsqu'il s'agit d'identifier les problèmes insolubles, autrement dit, tous les systèmes testés échouent à reconnaître qu'une question n'a pas de réponse. Ce résultat pointe une faille fondamentale : davantage de puissance de calcul améliore la capacité à résoudre des problèmes, mais n'améliore pas la capacité à admettre qu'un problème est sans issue. Pour un outil censé assister des chercheurs, cette lacune est critique. Un modèle qui répond avec assurance à une question mal posée ou insoluble est potentiellement plus dangereux qu'un modèle qui avoue ses limites, il peut induire en erreur des équipes entières. SOOHAK s'inscrit dans un effort plus large pour dépasser les benchmarks saturés ou trop faciles à "tricher", qui donnent une impression trompeuse des capacités réelles des IA. La communauté scientifique cherche à mesurer non seulement la performance brute, mais aussi la métacognition, savoir ce qu'on ne sait pas. Avec des scores plafonnant à 30 % sur des tâches de recherche authentique, SOOHAK confirme que les modèles actuels restent loin d'un niveau de raisonnement mathématique avancé, malgré les annonces régulières de progrès spectaculaires.

💬 La vraie info ici, c'est pas le 30 % de Gemini, c'est le moins de 50 % sur les problèmes sans solution. Aucun modèle ne sait dire "cette question est mal posée", et c'est exactement le genre de bug silencieux qui peut planter un projet de recherche entier. Reste à voir combien d'équipes scientifiques utilisent ces outils sans savoir ça.

RecherchePaper
1 source
Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes
3MarkTechPost 

Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes

Google DeepMind a présenté Aletheia, un agent AI spécialisé pour relier les compétitions mathématiques à la recherche professionnelle. Aletheia, basé sur Gemini Deep Think, utilise une architecture d'agencement (Generator, Verifier, Reviser) pour générer, vérifier et corriger des solutions en langage naturel. Aletheia a atteint 95.1% d'exactitude sur le banc de tests IMO-Proof Advanced et a contribué à plusieurs publications académiques, y compris la résolution autonome de 4 problèmes ouverts. DeepMind propose une classification pour les contributions mathématiques de l'IA, allant de la collaboration humain-IA (niveau 1) à l'autonomie quasi complète (niveau 2).

RechercheOutil
1 source
Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts
4MarkTechPost 

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

Des chercheurs de Google DeepMind ont publié une étude présentant AlphaEvolve, un système d'évolution de code piloté par un grand modèle de langage capable de réécrire et d'améliorer automatiquement des algorithmes de théorie des jeux. Appliqué à deux paradigmes de référence en apprentissage par renforcement multi-agents (MARL) — le Counterfactual Regret Minimization (CFR) et le Policy Space Response Oracles (PSRO) — le système a découvert de nouvelles variantes qui égalent ou surpassent les meilleures solutions conçues manuellement par des experts. Tous les tests ont été conduits dans le cadre OpenSpiel, sur des jeux à information imparfaite comme le poker de Kuhn à trois joueurs, le Leduc Poker, le Goofspiel et le Liar's Dice. Le modèle LLM utilisé pour muter le code source est Gemini 2.5 Pro. Ce travail représente un changement de paradigme dans la conception d'algorithmes pour les jeux stratégiques complexes, un domaine où les chercheurs passaient jusqu'ici des mois à affiner manuellement des règles de pondération, de discount et de convergence. AlphaEvolve automatise entièrement ce processus d'exploration : à chaque génération, un algorithme parent est sélectionné selon ses performances, son code source est transmis au LLM avec une consigne de modification, et le candidat résultant est évalué sur un ensemble de jeux d'entraînement. La variante CFR découverte, baptisée VAD-CFR (Volatility-Adaptive Discounted CFR), introduit notamment un mécanisme de discount adaptatif basé sur la volatilité, là où les variantes classiques comme DCFR ou PCFR+ appliquent des règles statiques définies par des humains. L'implication pratique est directe : des algorithmes qui convergent plus vite vers un équilibre de Nash signifient des agents de jeu plus efficaces, avec des applications potentielles en simulation économique, en sécurité et en IA adversariale. Google DeepMind s'inscrit ici dans une tendance plus large d'automatisation de la recherche en IA, où les LLM ne servent plus seulement à générer du texte mais à explorer des espaces de conception algorithmique. CFR est à la base de systèmes comme Libratus et Pluribus, les IA de poker qui ont battu les meilleurs joueurs humains en 2017 et 2019 ; améliorer ses variantes reste donc un enjeu concret pour les applications de prise de décision sous incertitude. Le framework AlphaEvolve avait déjà été utilisé par DeepMind pour optimiser des noyaux de calcul dans des contextes d'infrastructure. Son application aux algorithmes de théorie des jeux ouvre la voie à une automatisation plus systématique de la recherche en MARL, avec la question ouverte de jusqu'où un LLM peut explorer un espace algorithmique avant de buter sur des limites structurelles que l'intuition humaine seule saurait franchir.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour