Aller au contenu principal
Un médaillé Fields : ChatGPT 5.5 Pro a produit une recherche niveau doctorat en moins de deux heures sans aide humaine
LLMsThe Decoder6sem· 1 min de lecture

Un médaillé Fields : ChatGPT 5.5 Pro a produit une recherche niveau doctorat en moins de deux heures sans aide humaine

Source originale ↗·

Le mathématicien Timothy Gowers, lauréat de la médaille Fields en 1998 et l'une des figures les plus respectées des mathématiques contemporaines, a soumis ChatGPT 5.5 Pro à une série de problèmes ouverts en théorie des nombres. En moins d'une heure, le modèle d'OpenAI a transformé une borne exponentielle en borne polynomiale, une avancée non triviale dans ce domaine. Un chercheur du MIT impliqué dans l'évaluation a qualifié l'idée centrale trouvée par le modèle de "complètement originale". L'ensemble du travail a été accompli en moins de deux heures, sans aucune intervention humaine.

Cette performance marque un tournant dans la perception des capacités des grands modèles de langage en mathématiques de haut niveau. Jusqu'ici, les LLMs excellaient à résoudre des exercices connus ou à vérifier des démonstrations existantes, mais produire une idée originale en recherche pure était considéré hors de portée. Si un modèle peut désormais contribuer à des problèmes ouverts au niveau doctorat, cela remet en question la définition même de la contribution mathématique humaine.

La réflexion de Gowers est particulièrement révélatrice : selon lui, le nouveau critère pour évaluer une contribution mathématique sera désormais de prouver quelque chose qu'un LLM ne peut pas faire. Ce déplacement de la référence illustre une transformation profonde du rapport entre l'IA et la recherche fondamentale. OpenAI, qui avait déjà annoncé des ambitions en mathématiques formelles avec des outils comme le prover interne, franchit ici une étape qualitative qui devrait accélérer les débats sur la co-authorship humain-IA dans les publications académiques.

Impact France/UE

Les institutions académiques françaises et européennes devront réviser leurs critères d'évaluation de la contribution scientifique et leurs règles de co-authorship face à des LLMs capables de produire des résultats originaux en mathématiques fondamentales.

💬 L'analyse de Mathieu

Une borne exponentielle transformée en polynomiale en moins d'une heure, sur un problème ouvert, validé par Gowers lui-même. Ce n'est pas un benchmark bidouillé, c'est de la recherche fondamentale originale. Et la réaction de Gowers dit tout : la nouvelle mesure de la contribution mathématique, ça sera désormais de prouver ce qu'un LLM ne peut pas faire.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

ChatGPT revoit sa mémoire et devient plus humain… même free
1Le Big Data 

ChatGPT revoit sa mémoire et devient plus humain… même free

OpenAI a déployé une mise à jour significative du système de mémoire de ChatGPT, reposant sur une architecture interne baptisée Dreaming V3. Contrairement aux versions précédentes, l'assistant ne se limite plus à enregistrer des souvenirs explicitement demandés par l'utilisateur : il peut désormais relier automatiquement des éléments issus de conversations passées pour adapter ses réponses au contexte actuel. Le déploiement est progressif, les abonnés Plus et Pro aux États-Unis sont servis en priorité, les comptes Free et Go devant suivre dans les prochaines semaines. L'avancée technique clé est une réduction d'environ cinq fois de la puissance de calcul nécessaire pour faire tourner ce système, ce qui rend l'extension aux comptes gratuits économiquement viable pour la première fois. Concrètement, un utilisateur intensif pourrait voir ChatGPT retenir un projet récurrent, un style de rédaction préféré ou une contrainte professionnelle sans avoir besoin de la réexpliquer à chaque nouvelle conversation. C'est un changement de nature plus que de degré : l'assistant passe d'un outil qui répond à des instructions de mémorisation à un système qui construit progressivement un profil d'usage. Pour des millions d'utilisateurs gratuits jusqu'ici exclus de ces fonctionnalités, l'accès à une personnalisation continue représente un gain d'usage réel. Pour OpenAI, c'est un levier de rétention face à une concurrence qui s'intensifie sur ce même terrain. La mémoire dans les assistants IA est devenue un enjeu stratégique majeur pour l'ensemble du secteur, et OpenAI n'est pas seul à y investir. Google, Anthropic et d'autres acteurs travaillent à des systèmes similaires, la personnalisation étant perçue comme le prochain différenciateur clé après les capacités brutes de génération. Mais la question du contrôle reste centrale : plus un assistant retient, plus il devient utile, et plus la surface de données personnelles qu'il accumule est large. OpenAI affirme laisser aux utilisateurs la possibilité de consulter, modifier, supprimer ou désactiver les souvenirs enregistrés, et de revenir à un mode de fonctionnement plus classique. La crédibilité de ces garanties dans la durée, et leur lisibilité réelle pour un utilisateur lambda, seront déterminantes. Une IA qui devine les préférences sans les expliquer clairement franchit une frontière psychologique que les utilisateurs, et bientôt les régulateurs, auront du mal à ignorer.

UELes comptes gratuits européens accéderont prochainement à cette mémoire persistante, mais la constitution automatique de profils d'usage sans consentement explicite pourrait entrer en tension avec le RGPD, ouvrant la voie à un examen réglementaire.

LLMsOutil
1 source
DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5
2VentureBeat AI 

DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5

DeepSeek, la startup chinoise d'intelligence artificielle issue du fonds de trading quantitatif High-Flyer Capital Management, a publié DeepSeek-V4, un modèle de langage aux capacités proches des meilleurs systèmes mondiaux. Avec 1 600 milliards de paramètres organisés selon une architecture Mixture-of-Experts (MoE), ce modèle est disponible gratuitement sous licence MIT commercialement permissive, sur la plateforme Hugging Face et via l'API de DeepSeek. Son tarif d'accès : 1,74 dollar par million de tokens en entrée et 3,48 dollars par million en sortie, soit environ 5,22 dollars pour une utilisation combinée standard. Avec les entrées mises en cache, ce coût descend à 3,63 dollars. À titre de comparaison, GPT-5.5 d'OpenAI coûte 35 dollars pour la même transaction, et Claude Opus 4.7 d'Anthropic 30 dollars. Une version allégée, DeepSeek-V4-Flash, est proposée à seulement 0,42 dollar combiné, au prix d'une baisse de performance. Deli Chen, chercheur chez DeepSeek, a décrit cette sortie sur X comme "un travail d'amour", réalisé 484 jours après le lancement du V3, avec cette formule : "L'AGI appartient à tout le monde." L'impact économique est immédiat et brutal pour les acteurs américains du secteur. DeepSeek-V4-Pro coûte environ six fois moins cher que Claude Opus 4.7 et sept fois moins que GPT-5.5 en conditions normales, et jusqu'à dix fois moins avec les entrées en cache. La version Flash, elle, revient à moins de 1 % du tarif des modèles premium américains. Pour les entreprises traitant de gros volumes de requêtes, cette différence de coûts transforme radicalement le calcul de rentabilité : des tâches d'automatisation jugées trop onéreuses avec les modèles fermés américains deviennent soudainement viables. Développeurs et directions techniques sont contraints de réévaluer leurs choix d'infrastructure, et les fournisseurs positionnés sur le haut de gamme voient leur argument tarifaire sérieusement fragilisé. Ce lancement s'inscrit dans la continuité du "moment DeepSeek" de janvier 2025, quand le modèle R1 avait stupéfait la communauté internationale en rivalisant avec les meilleurs systèmes propriétaires américains à une fraction de leur coût de développement. Depuis, la startup avait publié plusieurs mises à jour de ses séries R1 et V3, mais la communauté attendait un successeur de grande envergure. Ce DeepSeek-V4 est d'ores et déjà qualifié de "deuxième moment DeepSeek", et il ravive les débats sur la pérennité commerciale des modèles fermés face aux alternatives open source chinoises. Il soulève également des questions sur la capacité de DeepSeek à maintenir cette trajectoire malgré les restrictions américaines sur l'exportation de puces haut de gamme, contraintes que l'entreprise semble contourner avec une efficacité croissante grâce à des optimisations architecturales poussées.

UEL'écart de prix, jusqu'à six fois inférieur aux modèles premium américains, permet aux entreprises européennes de rentabiliser des projets d'automatisation IA jusqu'ici jugés trop coûteux.

💬 Six fois moins cher qu'Opus 4.7, performances comparables, licence MIT. C'est exactement le scénario que les équipes produit chez OpenAI et Anthropic essayaient de ne pas avoir à gérer, et il arrive quand même. "L'AGI appartient à tout le monde", dit DeepSeek, bon, sur le papier c'est beau, mais le vrai truc c'est que des automatisations qu'on refusait de budgéter il y a six mois deviennent rentables dès ce soir.

LLMsOpinion
1 source
GPT-5.6 dès cette semaine ? Une version Pro et un mode vocal seraient aussi prévus
3Le Big Data 

GPT-5.6 dès cette semaine ? Une version Pro et un mode vocal seraient aussi prévus

Plusieurs sources actives sur X annoncent un lancement d'OpenAI pour jeudi 26 juin 2026, soit dans les 72 heures suivant leurs publications. Selon les fuites, trois nouveaux modèles seraient déployés simultanément pour les utilisateurs de ChatGPT : GPT-5.6 Pro, présenté comme le modèle le plus avancé d'OpenAI pour le raisonnement complexe ; GPT-5.6-family, une version orientée rapidité et capacités générales ; et GPT-Bidi-1, un modèle vocal conçu pour des échanges bidirectionnels en temps réel. Ces informations proviennent principalement de deux comptes suivis par la communauté IA : Chetaslua, qui affirme avoir testé GPT-5.6 Pro et le décrit comme capable de résultats "impressionnants avec les bons prompts", et Salio (@Mr_Salio), qui reprend le même calendrier. OpenAI n'a confirmé aucune de ces informations à ce stade. Si ces annonces se confirment, elles représentent une accélération notable du rythme de déploiement d'OpenAI. GPT-5.6 Pro ciblerait les tâches les plus exigeantes en raisonnement, là où les modèles actuels montrent encore leurs limites sur des problèmes longs ou multi-étapes. GPT-Bidi-1 répond à une demande exprimée depuis l'ère GPT-4o : un mode vocal sans les coupures et latences qui brisent le naturel des échanges. Certains testeurs le décrivent déjà comme le meilleur mode conversationnel vocal proposé par l'entreprise. Une base de connaissances arrêtée en août 2025 est mentionnée pour GPT-Bidi-1, ce qui placerait ce modèle dans la continuité directe des dernières mises à jour de la série GPT-5. Pour les professionnels qui utilisent ChatGPT au quotidien pour des tâches d'analyse, de rédaction ou de traitement de données, un gain substantiel sur le raisonnement et l'interaction vocale aurait un impact immédiat sur les flux de travail. Ces rumeurs s'inscrivent dans une période de forte pression concurrentielle pour OpenAI. Google, Anthropic et Meta ont tous accéléré leurs cycles de publication en 2025 et 2026, forçant chaque acteur à raccourcir ses fenêtres de lancement. OpenAI a déjà multiplié les sorties en rafale cette année, brouillant parfois la lisibilité de sa gamme pour les utilisateurs. La fiabilité des sources citées reste difficile à évaluer indépendamment : les fuites de la communauté X ont parfois anticipé des lancements réels, et parfois disparu sans suite. L'absence totale de communication officielle d'OpenAI à 72 heures d'un lancement annoncé est inhabituelle, mais pas sans précédent. Réponse attendue d'ici jeudi.

UESi le lancement se confirme jeudi, les professionnels français utilisant ChatGPT quotidiennement pour l'analyse et la rédaction bénéficieraient directement des gains en raisonnement et du mode vocal amélioré.

LLMsOpinion
1 source
Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat
4VentureBeat AI 

Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat

Un site baptisé AI IQ (aiiq.org) propose depuis la semaine dernière de noter les modèles d'intelligence artificielle selon le même barème que le quotient intellectuel humain. Créé par Ryan Shea, ingénieur et investisseur providentiel cofondateur de la plateforme blockchain Stacks ainsi que de Voterbase, le projet attribue un score IQ estimé à plus de 50 des grands modèles de langage actuels, puis les place sur une courbe en cloche standard. La méthodologie repose sur 12 benchmarks répartis en quatre dimensions : raisonnement abstrait (ARC-AGI-1 et ARC-AGI-2), mathématique (FrontierMath, AIME, ProofBench), programmatique (Terminal-Bench 2.0, SWE-Bench Verified, SciCode) et académique (Humanity's Last Exam, CritPt, GPQA Diamond). L'IQ final est la moyenne arithmétique des quatre scores dimensionnels. Au classement de mi-mai 2026, GPT-5.5 d'OpenAI trône en tête avec un IQ estimé à 136, talonné par Opus 4.7 d'Anthropic (environ 132), GPT-5.4 (131), Gemini 3.1 Pro de Google (131) et Opus 4.6 (129), un peloton de tête anormalement serré. L'initiative a immédiatement divisé. Du côté des partisans, des stratèges et technologues d'entreprise comme Brian Vellmure ou le commentateur Thibaut Mélen saluent sur X un outil qui rend lisible un marché impossible à comparer : là où les tableaux de benchmarks classiques noient l'utilisateur dans des colonnes de chiffres disparates, une seule valeur résume l'essentiel. Pour les décideurs qui doivent choisir un modèle sans être chercheurs en IA, c'est une boussole bienvenue. Mais les critiques ont été tout aussi rapides. Le compte AI Deeply, relayant l'inquiétude de nombreux chercheurs, résume le problème en une formule : « C'est du non-sens. L'IA est bien trop irrégulière. La carte n'est pas le territoire. » Le reproche central est que les capacités d'un modèle sont profondément asymétriques, excellent en code, médiocre en raisonnement spatial, brillant en langues latines, défaillant en logique formelle, et qu'un seul chiffre efface précisément cette information. Le projet s'inscrit dans une quête plus large de lisibilité du marché des LLMs, qui s'est fragmenté à une vitesse vertigineuse depuis 2024. Les benchmarks traditionnels prolifèrent, souvent incomparables entre eux, parfois contaminés par des données d'entraînement, et régulièrement accusés de ne mesurer que ce que les modèles ont déjà appris à optimiser. AI IQ tente d'y répondre en compressant les plafonds des benchmarks jugés trop faciles ou trop susceptibles de saturation, et en pénalisant les modèles dont les données sont incomplètes plutôt qu'en leur bénéficiant du doute. La convergence spectaculaire au sommet, où quatre modèles de trois laboratoires différents se retrouvent dans un écart de cinq points, illustre la compétition féroce entre OpenAI, Anthropic et Google, et pose la vraie question : si les scores sont presque identiques, sur quoi les entreprises vont-elles désormais choisir leur modèle ?

LLMsPaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic