Aller au contenu principal
GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars
RechercheLatent Space6sem· 2 min de lecture

GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars

Source originale ↗·

OpenAI a annoncé début mai 2026 qu'un modèle interne, vraisemblablement une version intermédiaire de GPT-5, surnommée GPT-5.6, a réfuté une conjecture mathématique vieille de 80 ans : le problème des distances unitaires planes, posé par le mathématicien hongrois Paul Erdős en 1946. Le modèle a produit ce résultat en moins de 32 heures de calcul, pour un coût estimé à moins de 1 000 dollars. Concrètement, il a découvert une nouvelle famille de constructions géométriques qui dépasse les meilleures solutions connues basées sur les grilles carrées. Le raisonnement généré s'étend sur environ 125 pages, avec un passage en page 39 qui a particulièrement attiré l'attention de la communauté mathématique. Il s'agit techniquement d'une réfutation, pas d'une preuve, ce qui, selon les auteurs, rend le résultat légèrement moins spectaculaire qu'il aurait pu être, mais significatif malgré tout.

Ce qui frappe les observateurs, c'est que le modèle utilisé n'est pas un système spécialisé comme AlphaProof ou un prouveur formel de type Lean, mais un LLM généraliste. Le mathématicien Timothy Gowers, médaille Fields 1998, a qualifié ce résultat de "premier exemple vraiment clair" où une IA résout un problème mathématique ouvert de renom. Le chercheur d'OpenAI Hongxun Wu y voit une démonstration de capacités de raisonnement sur des "problèmes de la plus haute difficulté". L'implication est importante : si un modèle généraliste peut progresser sur des problèmes ouverts en géométrie discrète, le même type de raisonnement pourrait s'appliquer à d'autres domaines scientifiques, biologie, physique, chimie computationnelle. OpenAI a précisé que le modèle n'a pas été poussé à ses limites et sera mis à disposition du public.

Ce résultat s'inscrit dans une dynamique plus large autour du calcul à l'inférence : l'idée que donner plus de temps de réflexion à un modèle, plutôt que d'entraîner un modèle plus grand, est le levier dominant du progrès actuel. La longueur inhabituelle du raisonnement produit (125 pages) illustre précisément cette approche. En parallèle, Cohere a publié cette même semaine Command A+, son premier modèle entièrement open source sous licence Apache 2.0 : 218 milliards de paramètres en architecture MoE avec 25 milliards actifs, multimodal, compatible 48 langues, et capable de tourner sur seulement deux GPU H100 en quantification W4A4. Les benchmarks le placent au niveau de Claude 4.5 Haiku avec de bonnes performances en évitement des hallucinations, mais en retrait sur le raisonnement scientifique et le code par rapport aux modèles de tête. Ces deux annonces confirment une semaine de mai 2026 particulièrement dense pour l'IA de frontière.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars
1The Decoder 

AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars

Google DeepMind a annoncé qu'AlphaProof Nexus, son système d'IA dédié aux démonstrations mathématiques formelles, a résolu de manière autonome neuf problèmes ouverts d'Erdős, dont deux qui avaient résisté aux mathématiciens pendant 56 ans. Le coût d'inférence par problème résolu s'élève à quelques centaines de dollars seulement. Contrairement à l'approche en langage naturel d'OpenAI, AlphaProof Nexus s'appuie sur le compilateur Lean pour vérifier automatiquement chaque étape d'une démonstration, garantissant ainsi une rigueur formelle totale. Le taux de réussite global du système reste cependant modeste, à 2,5 %. L'enjeu est considérable : des problèmes ouverts depuis plus d'un demi-siècle, qui auraient pu mobiliser des équipes de chercheurs pendant des années, sont désormais accessibles à une machine pour un coût marginal. La vérification automatique via Lean élimine par ailleurs le risque d'erreurs subtiles qui persistent parfois dans les preuves humaines, ce qui confère à ces résultats une crédibilité immédiate auprès de la communauté mathématique. Les problèmes d'Erdős constituent une catégorie à part en mathématiques combinatoires : Paul Erdős, prolifique mathématicien hongrois du XXe siècle, avait formulé des centaines de conjectures et offert des récompenses en argent pour leur résolution. AlphaProof, lancé par DeepMind en 2024 après une performance remarquée à l'Olympiade internationale de mathématiques, s'impose progressivement face à des approches concurrentes comme o3 d'OpenAI. Un taux de succès de 2,5 % peut sembler faible, mais sur l'ensemble du corpus mathématique ouvert, il représente une avancée sans précédent pour une machine.

UELes laboratoires de mathématiques et d'informatique européens (CNRS, ENS, instituts Max Planck) pourraient bénéficier de ces outils de preuve formelle automatisée pour accélérer la résolution de problèmes ouverts à moindre coût.

💬 Deux problèmes qui bloquaient les chercheurs depuis 56 ans, réglés pour quelques centaines de dollars. Ce qui change tout par rapport à o3, c'est Lean : la preuve est vérifiée formellement à chaque étape, pas de raisonnement convaincant qui planque une erreur quelques lignes plus loin. Le 2,5% de réussite globale, c'est modeste, mais sur le corpus Erdős, c'est du jamais-vu pour une machine.

RecherchePaper
1 source
Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans
2Ars Technica AI 

Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans

En mai 2026, OpenAI a annoncé qu'un de ses modèles d'IA internes avait réfuté la conjecture des distances unitaires d'Erdős, un problème de géométrie discrète resté sans solution depuis quatre-vingt ans. La conjecture, formulée par le mathématicien hongrois Paul Erdős, porte sur le nombre maximal de paires de points situés à distance exactement 1 dans un ensemble de points du plan. Avant de rendre le résultat public, OpenAI a accordé un accès anticipé à plusieurs mathématiciens reconnus, qui ont pu examiner et valider la démonstration. Les réactions de la communauté mathématique témoignent de l'importance du résultat. Tim Gowers, médaillé Fields, la plus haute distinction en mathématiques, a qualifié cette résolution de « jalon dans les mathématiques par l'IA ». Daniel Litt, professeur à l'Université de Toronto, a souligné qu'il s'agissait du « premier exemple d'un résultat produit de manière autonome par une IA qu'il trouve passionnant en lui-même, et non comme simple indicateur précoce ». Cette nuance est cruciale : les précédentes démonstrations assistées par IA étaient surtout perçues comme des signaux de progression future, pas comme des contributions mathématiques réelles. Ce résultat intervient dans un contexte où les grands laboratoires d'IA rivalisent pour démontrer des capacités de raisonnement formel avancé. Google DeepMind, OpenAI et d'autres investissent massivement dans des systèmes capables de produire des preuves mathématiques vérifiables. Résoudre un problème ouvert depuis 1946 franchit un seuil symbolique : l'IA ne se contente plus d'assister le mathématicien humain, elle produit des découvertes originales que la communauté scientifique reconnaît comme telles.

UELes mathématiciens et chercheurs européens devront revoir leur rapport à l'IA comme outil de découverte scientifique autonome, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

RecherchePaper
1 source
Claude Mythos résout un vieux problème d'Erdős
3The Decoder 

Claude Mythos résout un vieux problème d'Erdős

Le modèle Claude Mythos d'Anthropic aurait résolu la conjecture des distances unitaires d'Erdős, un problème mathématique ouvert depuis 1946, en produisant une démonstration qualifiée de "mignonne et simple" par Sholto Douglas, ingénieur chez Anthropic. Selon Douglas, Mythos a cracké ce résultat "pendant le week-end", peu après qu'OpenAI ait lui-même annoncé avoir réfuté cette même conjecture, proposée à l'origine par le mathématicien hongrois Paul Erdős et portant sur le nombre maximal de paires de points à distance unitaire parmi n points dans un plan. Cette double percée illustre une accélération notable de la recherche mathématique assistée par IA. Là où des décennies de travail humain n'avaient pas suffi, deux systèmes d'IA distincts ont produit des résultats en quelques jours. Douglas parle d'un "serious overhang", l'idée que les modèles actuels sont déjà capables de résoudre des problèmes ouverts de longue date, mais que ce potentiel n'a pas encore été pleinement exploité. Pour la communauté mathématique et les laboratoires de recherche, cela repose la question de la place des LLMs comme outils de découverte formelle. Cette compétition implicite entre Anthropic et OpenAI sur un même problème symbolique s'inscrit dans une course plus large à la démonstration de capacités de raisonnement avancé. La conjecture d'Erdős sur les distances unitaires est l'un des problèmes combinatoires les plus célèbres du XXe siècle, et sa résolution par deux IA distinctes en l'espace de quelques jours suggère que d'autres conjectures ouvertes pourraient tomber prochainement sous la même approche.

RecherchePaper
1 source
ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs
4Apple Machine Learning 

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs

Des chercheurs ont publié ProText, un jeu de données de référence conçu pour mesurer les erreurs de genre — ou « misgendering » — dans des textes longs en anglais. Le dataset s'articule autour de trois dimensions : les noms thématiques (prénoms, professions, titres, liens familiaux), la catégorie thématique (stéréotypiquement masculin, stéréotypiquement féminin, neutre ou non genré), et la catégorie de pronom (masculin, féminin, neutre, ou absence de pronom). ProText est spécifiquement conçu pour évaluer le comportement des grands modèles de langage (LLMs) lors de transformations textuelles comme le résumé automatique ou la réécriture. L'enjeu est significatif : les LLMs sont de plus en plus utilisés pour reformuler, condenser ou transformer des contenus, et ces opérations peuvent introduire ou amplifier des biais de genre — en assignant incorrectement un pronom masculin à une personne dont le genre est neutre ou non spécifié, par exemple. ProText va au-delà des benchmarks traditionnels de résolution de coréférence pronominale, en couvrant des textes stylistiquement variés et des cas plus complexes que le simple remplacement de pronom. Ce travail s'inscrit dans un effort plus large de la communauté NLP pour documenter et corriger les biais systémiques des modèles de langage. Les benchmarks existants se concentraient surtout sur des phrases courtes ou des contextes binaires, laissant peu de visibilité sur ce qui se passe dans des textes plus longs et nuancés. ProText vise à combler ce manque et à fournir un outil standardisé aux équipes qui évaluent l'équité et l'inclusivité de leurs systèmes d'IA.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic