
Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes
Google DeepMind vient de présenter Aletheia, un agent d'intelligence artificielle conçu pour franchir une frontière que l'IA mathématique n'avait pas encore dépassée : passer des compétitions olympiques aux découvertes de recherche professionnelle entièrement autonomes. Alimenté par une version avancée de Gemini Deep Think, l'agent est capable de générer, vérifier et réviser des preuves mathématiques en langage naturel, sans intervention humaine.
L'enjeu dépasse largement la performance aux concours. Les Olympiades Internationales de Mathématiques (IMO) mesurent la résolution de problèmes bien définis, mais la recherche académique impose de naviguer dans une littérature immense, de construire des démonstrations sur le long terme et d'éviter les erreurs de citation. Aletheia répond à ce défi par une architecture en boucle agentique à trois composantes — un Générateur, un Vérificateur et un Réviseur — qui se corrigent mutuellement de façon itérative. L'équipe de DeepMind souligne que cette séparation explicite des rôles permet au modèle de détecter des failles qu'il n'aurait pas identifiées lors de la génération initiale.
Les résultats sont marquants. Aletheia atteint 95,1 % de précision sur l'IMO-Proof Bench Advanced, contre un précédent record de 65,7 %. La version de janvier 2026 de Deep Think réduit par 100x la puissance de calcul nécessaire pour atteindre le niveau olympique par rapport à 2025. Déployé contre 700 problèmes ouverts de la base des Conjectures d'Erdős, l'agent a produit 63 solutions techniquement correctes et résolu 4 questions ouvertes de façon autonome. Le papier Feng26, portant sur la géométrie arithmétique, a été intégralement rédigé par Aletheia sans intervention humaine — classé Niveau A2 dans la taxonomie d'autonomie proposée par DeepMind, équivalent d'une recherche publiable essentiellement autonome.
Pour structurer cette classification, DeepMind s'est inspiré des niveaux d'autonomie des véhicules autonomes, définissant un spectre allant du Niveau 0 (humain majoritaire, type Olympiades) au Niveau 2 (essentiellement autonome, recherche publiable). L'utilisation de Google Search et de la navigation web permet à l'agent d'ancrer ses preuves dans la littérature réelle et de limiter les hallucinations de citations — un problème récurrent des grands modèles de langage appliqués aux sciences formelles.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




