Aller au contenu principal
Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes
RechercheMarkTechPost13sem· 2 min de lecture

Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes

Source originale ↗·

Google DeepMind vient de présenter Aletheia, un agent d'intelligence artificielle conçu pour franchir une frontière que l'IA mathématique n'avait pas encore dépassée : passer des compétitions olympiques aux découvertes de recherche professionnelle entièrement autonomes. Alimenté par une version avancée de Gemini Deep Think, l'agent est capable de générer, vérifier et réviser des preuves mathématiques en langage naturel, sans intervention humaine.

L'enjeu dépasse largement la performance aux concours. Les Olympiades Internationales de Mathématiques (IMO) mesurent la résolution de problèmes bien définis, mais la recherche académique impose de naviguer dans une littérature immense, de construire des démonstrations sur le long terme et d'éviter les erreurs de citation. Aletheia répond à ce défi par une architecture en boucle agentique à trois composantes — un Générateur, un Vérificateur et un Réviseur — qui se corrigent mutuellement de façon itérative. L'équipe de DeepMind souligne que cette séparation explicite des rôles permet au modèle de détecter des failles qu'il n'aurait pas identifiées lors de la génération initiale.

Les résultats sont marquants. Aletheia atteint 95,1 % de précision sur l'IMO-Proof Bench Advanced, contre un précédent record de 65,7 %. La version de janvier 2026 de Deep Think réduit par 100x la puissance de calcul nécessaire pour atteindre le niveau olympique par rapport à 2025. Déployé contre 700 problèmes ouverts de la base des Conjectures d'Erdős, l'agent a produit 63 solutions techniquement correctes et résolu 4 questions ouvertes de façon autonome. Le papier Feng26, portant sur la géométrie arithmétique, a été intégralement rédigé par Aletheia sans intervention humaine — classé Niveau A2 dans la taxonomie d'autonomie proposée par DeepMind, équivalent d'une recherche publiable essentiellement autonome.

Pour structurer cette classification, DeepMind s'est inspiré des niveaux d'autonomie des véhicules autonomes, définissant un spectre allant du Niveau 0 (humain majoritaire, type Olympiades) au Niveau 2 (essentiellement autonome, recherche publiable). L'utilisation de Google Search et de la navigation web permet à l'agent d'ancrer ses preuves dans la littérature réelle et de limiter les hallucinations de citations — un problème récurrent des grands modèles de langage appliqués aux sciences formelles.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
1MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars
2The Decoder 

AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars

Google DeepMind a annoncé qu'AlphaProof Nexus, son système d'IA dédié aux démonstrations mathématiques formelles, a résolu de manière autonome neuf problèmes ouverts d'Erdős, dont deux qui avaient résisté aux mathématiciens pendant 56 ans. Le coût d'inférence par problème résolu s'élève à quelques centaines de dollars seulement. Contrairement à l'approche en langage naturel d'OpenAI, AlphaProof Nexus s'appuie sur le compilateur Lean pour vérifier automatiquement chaque étape d'une démonstration, garantissant ainsi une rigueur formelle totale. Le taux de réussite global du système reste cependant modeste, à 2,5 %. L'enjeu est considérable : des problèmes ouverts depuis plus d'un demi-siècle, qui auraient pu mobiliser des équipes de chercheurs pendant des années, sont désormais accessibles à une machine pour un coût marginal. La vérification automatique via Lean élimine par ailleurs le risque d'erreurs subtiles qui persistent parfois dans les preuves humaines, ce qui confère à ces résultats une crédibilité immédiate auprès de la communauté mathématique. Les problèmes d'Erdős constituent une catégorie à part en mathématiques combinatoires : Paul Erdős, prolifique mathématicien hongrois du XXe siècle, avait formulé des centaines de conjectures et offert des récompenses en argent pour leur résolution. AlphaProof, lancé par DeepMind en 2024 après une performance remarquée à l'Olympiade internationale de mathématiques, s'impose progressivement face à des approches concurrentes comme o3 d'OpenAI. Un taux de succès de 2,5 % peut sembler faible, mais sur l'ensemble du corpus mathématique ouvert, il représente une avancée sans précédent pour une machine.

UELes laboratoires de mathématiques et d'informatique européens (CNRS, ENS, instituts Max Planck) pourraient bénéficier de ces outils de preuve formelle automatisée pour accélérer la résolution de problèmes ouverts à moindre coût.

💬 Deux problèmes qui bloquaient les chercheurs depuis 56 ans, réglés pour quelques centaines de dollars. Ce qui change tout par rapport à o3, c'est Lean : la preuve est vérifiée formellement à chaque étape, pas de raisonnement convaincant qui planque une erreur quelques lignes plus loin. Le 2,5% de réussite globale, c'est modeste, mais sur le corpus Erdős, c'est du jamais-vu pour une machine.

RecherchePaper
1 source
L'« AI co-clinician » de Google DeepMind devance GPT-5.4 aux tests en aveugle, mais reste derrière les médecins expérimentés
3The Decoder 

L'« AI co-clinician » de Google DeepMind devance GPT-5.4 aux tests en aveugle, mais reste derrière les médecins expérimentés

Google DeepMind développe un système d'intelligence artificielle baptisé "AI co-clinician", conçu pour assister les médecins dans la prise en charge des patients. Selon une étude publiée par le laboratoire de recherche d'Alphabet, ce modèle surpasse GPT-5.4 d'OpenAI lors de tests en aveugle réalisés par des médecins, où les évaluateurs ne savaient pas quelle IA produisait quelle réponse. Malgré ces résultats encourageants obtenus dans des environnements simulés, le système reste en deçà des performances des médecins expérimentés en exercice. Cette recherche illustre à la fois les progrès réels de l'IA médicale et ses limites persistantes. Qu'un modèle de Google surpasse GPT-5.4 dans un contexte clinique simulé est significatif : cela montre que des architectures spécialisées, entraînées sur des données médicales, peuvent dépasser des modèles généralistes de dernière génération. Mais l'écart qui subsiste avec les cliniciens humains rappelle que la médecine exige un niveau de fiabilité et de nuance que les systèmes actuels n'atteignent pas encore. L'étude souligne également que le mode vocal de ChatGPT n'est pas adapté à des tâches sérieuses, et certainement pas aux consultations médicales. La course à l'IA médicale implique désormais les plus grands acteurs technologiques mondiaux, avec Google, Microsoft et plusieurs startups spécialisées en compétition directe. L'idée d'un "co-clinicien" artificiel, qui seconderait le médecin sans le remplacer, représente une approche volontairement prudente, cherchant à contourner les résistances réglementaires et éthiques. Ces travaux de DeepMind s'inscrivent dans une trajectoire où l'IA pourrait d'abord s'imposer comme outil d'aide à la décision avant toute autonomie clinique.

UELes systèmes d'aide à la décision clinique étant classés à haut risque par l'AI Act européen, ces résultats accélèrent la pression réglementaire sur les éditeurs de logiciels médicaux et les hôpitaux en France et en Europe.

💬 DeepMind bat GPT-5.4 en aveugle sur des cas cliniques, et c'est là que c'est intéressant : un modèle spécialisé qui dépasse le généraliste de dernière génération, ça prouve que la spécialisation a encore de l'avenir. Rester derrière les médecins expérimentés, c'est pas une surprise, c'est même rassurant que personne ne le cache. "Co-clinicien" plutôt que "diagnostic AI", c'est le choix de vocabulaire qui permet de déployer sans déclencher l'AI Act.

RecherchePaper
1 source
Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte
4Apple Machine Learning 

Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte

Des chercheurs proposent TC-JEPA (Text-Conditional JEPA), une extension de l'architecture I-JEPA développée pour l'apprentissage auto-supervisé des représentations visuelles. Le principe d'I-JEPA repose sur la prédiction de caractéristiques masquées dans l'espace des features : plutôt qu'apprendre à reconstruire des pixels, le modèle prédit des représentations abstraites de régions cachées d'une image. TC-JEPA y ajoute un conditionneur textuel : les légendes associées aux images servent de signal auxiliaire, calculé via une attention croisée sparse sur les tokens textuels, pour guider la prédiction des patches masqués. L'apport central est de réduire l'incertitude inhérente à la prédiction visuelle. Sans texte, plusieurs reconstructions plausibles existent pour une zone masquée, ce qui pousse le modèle à produire des représentations floues ou moyennées. En ancrant la prédiction dans une description textuelle fine, TC-JEPA force l'encodeur visuel à apprendre des features sémantiquement plus riches et précises, avec des retombées potentielles sur la classification, la détection d'objets et la compréhension multimodale. Cette direction s'inscrit dans un mouvement de fond qui cherche à dépasser les limites du contrastif pur (CLIP, ALIGN) en revenant à des architectures prédictives plus proches de la vision de Yann LeCun pour un apprentissage "de type monde". I-JEPA, publié par Meta en 2023, avait déjà montré des gains sur ImageNet sans augmentation agressive. TC-JEPA tente d'en corriger le principal défaut : la supervision visuelle seule reste trop ambiguë pour forcer l'émergence de concepts sémantiques robustes, un problème que le signal textuel vient partiellement résoudre.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic