RechercheThe Decoder6sem· 1 min de lecture

OpenAI repousse les limites du raisonnement automatisé avec ce qu'il appelle une avancée majeure en mathématiques

Résumé IASource uniqueImpact UE Take éditorial

Un modèle de raisonnement d'OpenAI vient de réfuter une conjecture du mathématicien Paul Erdős portant sur la géométrie des distances unitaires, restée ouverte depuis 1946. Pour y parvenir, le modèle a mobilisé des outils issus de la théorie algébrique des nombres, une approche que les spécialistes du domaine n'avaient jamais envisagée dans ce contexte. La médaille Fields Tim Gowers, l'une des plus grandes autorités mondiales en mathématiques, a qualifié le résultat de "jalon dans les mathématiques de l'IA", et la communauté scientifique est désormais en train d'en analyser les détails techniques.

L'impact va bien au-delà d'un simple exercice de calcul. En invalidant une conjecture vieille de 80 ans par un chemin conceptuellement inattendu, l'IA démontre une capacité à explorer des espaces de solutions que les chercheurs humains auraient peu de chances d'emprunter spontanément. Tim Gowers lui-même avertit : "Nous sommes probablement entrés dans une ère où il deviendra très difficile pour les humains de rivaliser avec l'IA dans la résolution de problèmes mathématiques." Ce n'est plus une promesse, c'est un constat d'un pair reconnu.

Les conjectures d'Erdős forment l'un des corpus de problèmes ouverts les plus célèbres des mathématiques modernes, et beaucoup résistent depuis des décennies. OpenAI s'inscrit dans une course engagée avec Google DeepMind et d'autres, qui cherchent tous à démontrer que leurs modèles peuvent produire de véritables avancées scientifiques, et pas seulement assister les chercheurs. Cette démonstration pourrait accélérer l'intégration de l'IA dans les laboratoires de mathématiques pures, et relancer le débat sur ce que signifie "comprendre" en mathématiques.

Impact France/UE

Les chercheurs en mathématiques des universités françaises et européennes pourraient être amenés à reconsidérer le rôle de l'IA comme outil de découverte scientifique dans leurs laboratoires de recherche fondamentale.

💬 L'analyse de Mathieu

Ce n'est pas qu'il a résolu un problème d'Erdős vieux de 80 ans qui m'intéresse, c'est le chemin emprunté. Passer par la théorie algébrique des nombres là où personne ne regardait, c'est exactement le genre de détour qu'un chercheur humain n'aurait pas pris (trop risqué, trop loin des habitudes du domaine). Quand Gowers, médaille Fields, dit qu'on entre dans une ère difficile pour les humains en maths, c'est pas de la provoc, c'est un constat.

Dans nos dossiers

OpenAI Google DeepMind

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Ars Technica AI

Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans

En mai 2026, OpenAI a annoncé qu'un de ses modèles d'IA internes avait réfuté la conjecture des distances unitaires d'Erdős, un problème de géométrie discrète resté sans solution depuis quatre-vingt ans. La conjecture, formulée par le mathématicien hongrois Paul Erdős, porte sur le nombre maximal de paires de points situés à distance exactement 1 dans un ensemble de points du plan. Avant de rendre le résultat public, OpenAI a accordé un accès anticipé à plusieurs mathématiciens reconnus, qui ont pu examiner et valider la démonstration. Les réactions de la communauté mathématique témoignent de l'importance du résultat. Tim Gowers, médaillé Fields, la plus haute distinction en mathématiques, a qualifié cette résolution de « jalon dans les mathématiques par l'IA ». Daniel Litt, professeur à l'Université de Toronto, a souligné qu'il s'agissait du « premier exemple d'un résultat produit de manière autonome par une IA qu'il trouve passionnant en lui-même, et non comme simple indicateur précoce ». Cette nuance est cruciale : les précédentes démonstrations assistées par IA étaient surtout perçues comme des signaux de progression future, pas comme des contributions mathématiques réelles. Ce résultat intervient dans un contexte où les grands laboratoires d'IA rivalisent pour démontrer des capacités de raisonnement formel avancé. Google DeepMind, OpenAI et d'autres investissent massivement dans des systèmes capables de produire des preuves mathématiques vérifiables. Résoudre un problème ouvert depuis 1946 franchit un seuil symbolique : l'IA ne se contente plus d'assister le mathématicien humain, elle produit des découvertes originales que la communauté scientifique reconnaît comme telles.

UELes mathématiciens et chercheurs européens devront revoir leur rapport à l'IA comme outil de découverte scientifique autonome, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

RecherchePaper

1 source

2Apple Machine Learning

On robustesse et cohérence du raisonnement en chaîne dans les VLM affinés par RL

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs Une équipe de chercheurs a testé la robustesse des modèles vision-langage (VLM) entraînés par renforcement (RL), une technique de plus en plus utilisée pour améliorer le raisonnement des grands modèles de langage et désormais étendue aux modèles multimodaux. Les expériences montrent que ces VLM affinés par RL, bien que plus performants sur les benchmarks de raisonnement visuel, restent fragiles face à des perturbations textuelles simples et contrôlées: une légende trompeuse associée à une image ou une chaîne de raisonnement (chain-of-thought) volontairement erronée suffisent à faire chuter significativement leur robustesse et leur niveau de confiance dans les réponses fournies. Les chercheurs précisent que cet effet est encore plus marqué lorsque la cohérence de la chaîne de raisonnement est mise à l'épreuve, révélant une dépendance excessive au texte plutôt qu'à l'analyse réelle de l'image. Ce résultat est important car il met en lumière une faille de sécurité et de fiabilité dans une génération de modèles présentée comme plus intelligente grâce au renforcement. Un VLM qui se laisse influencer par une légende erronée ou un raisonnement fautif peut produire des réponses fausses avec une confiance trompeuse, ce qui pose un risque concret pour toute application s'appuyant sur ces systèmes: assistance médicale, modération de contenu, véhicules autonomes ou outils d'analyse documentaire. Cela signifie aussi que les gains de performance mesurés sur les benchmarks classiques masquent une fragilité sous-jacente que les utilisateurs et les entreprises ne perçoivent pas toujours. Le problème trouve son origine dans le fait que l'entraînement par renforcement, conçu à l'origine pour les modèles purement textuels, a été transposé aux VLM sans toujours garantir un ancrage visuel solide (weak visual grounding) ni une réduction des hallucinations. Les modèles continuent ainsi de privilégier les indices textuels au détriment de l'image elle-même. Cette étude s'inscrit dans un débat plus large sur la fiabilité des architectures multimodales et invite les développeurs à concevoir des méthodes d'entraînement et d'évaluation qui testent explicitement la cohérence entre perception visuelle et raisonnement, avant tout déploiement dans des contextes sensibles.

RecherchePaper

1 source

3Apple Machine Learning

PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils

Des chercheurs ont publié PORTool, un algorithme d'optimisation de politique dit "importance-aware" conçu pour améliorer l'entraînement des agents LLM capables d'utiliser plusieurs outils simultanément. Le système introduit un arbre de récompenses (rewarded tree) qui attribue des crédits à chaque étape intermédiaire d'un raisonnement, plutôt qu'uniquement à l'issue finale d'une tâche. Concrètement, lorsqu'un agent enchaîne des appels à des outils externes avant de produire une réponse, PORTool est capable de noter individuellement chaque décision prise en cours de route. Le problème central que PORTool cherche à résoudre est l'ambiguïté d'attribution de crédit, un obstacle persistant dans l'entraînement des agents multi-outils. Avec les méthodes classiques basées uniquement sur le résultat final, il est impossible de savoir quelles décisions intermédiaires ont contribué au succès ou à l'échec d'une séquence. Ce manque de granularité dégrade la qualité de l'apprentissage et rend les agents peu fiables en conditions réelles. PORTool offre un signal d'entraînement plus précis, ce qui devrait se traduire par des agents mieux capables de mobiliser les bons outils au bon moment. Le raisonnement multi-outils est devenu un enjeu central depuis l'essor des agents autonomes comme GPT-4 avec plugins, ou les architectures ReAct et ToolLLM. Ces systèmes montrent un potentiel considérable pour automatiser des tâches complexes en milieu professionnel, mais leur fiabilité dépend directement de la qualité de leur entraînement. PORTool s'inscrit dans une vague de travaux sur l'apprentissage par renforcement appliqué aux LLM, un domaine en pleine effervescence depuis les succès de DeepSeek-R1 et d'autres modèles à raisonnement renforcé.

RecherchePaper

1 source

4The Decoder

Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution

Un consortium de 64 mathématiciens a conçu SOOHAK, un nouveau benchmark destiné à évaluer les capacités des modèles d'IA en mathématiques de recherche. L'outil comprend 439 problèmes rédigés à la main, dont 99 délibérément sans solution valide. Sur les problèmes de niveau recherche, Gemini 3 Pro de Google arrive en tête avec un score de 30 %. En revanche, aucun modèle ne dépasse 50 % lorsqu'il s'agit d'identifier les problèmes insolubles, autrement dit, tous les systèmes testés échouent à reconnaître qu'une question n'a pas de réponse. Ce résultat pointe une faille fondamentale : davantage de puissance de calcul améliore la capacité à résoudre des problèmes, mais n'améliore pas la capacité à admettre qu'un problème est sans issue. Pour un outil censé assister des chercheurs, cette lacune est critique. Un modèle qui répond avec assurance à une question mal posée ou insoluble est potentiellement plus dangereux qu'un modèle qui avoue ses limites, il peut induire en erreur des équipes entières. SOOHAK s'inscrit dans un effort plus large pour dépasser les benchmarks saturés ou trop faciles à "tricher", qui donnent une impression trompeuse des capacités réelles des IA. La communauté scientifique cherche à mesurer non seulement la performance brute, mais aussi la métacognition, savoir ce qu'on ne sait pas. Avec des scores plafonnant à 30 % sur des tâches de recherche authentique, SOOHAK confirme que les modèles actuels restent loin d'un niveau de raisonnement mathématique avancé, malgré les annonces régulières de progrès spectaculaires.

💬 La vraie info ici, c'est pas le 30 % de Gemini, c'est le moins de 50 % sur les problèmes sans solution. Aucun modèle ne sait dire "cette question est mal posée", et c'est exactement le genre de bug silencieux qui peut planter un projet de recherche entier. Reste à voir combien d'équipes scientifiques utilisent ces outils sans savoir ça.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic