RechercheMarkTechPost6sem

Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes

Résumé IASource uniqueImpact UE

Google DeepMind vient de présenter Aletheia, un agent d'intelligence artificielle conçu pour franchir une frontière que l'IA mathématique n'avait pas encore dépassée : passer des compétitions olympiques aux découvertes de recherche professionnelle entièrement autonomes. Alimenté par une version avancée de Gemini Deep Think, l'agent est capable de générer, vérifier et réviser des preuves mathématiques en langage naturel, sans intervention humaine.

L'enjeu dépasse largement la performance aux concours. Les Olympiades Internationales de Mathématiques (IMO) mesurent la résolution de problèmes bien définis, mais la recherche académique impose de naviguer dans une littérature immense, de construire des démonstrations sur le long terme et d'éviter les erreurs de citation. Aletheia répond à ce défi par une architecture en boucle agentique à trois composantes — un Générateur, un Vérificateur et un Réviseur — qui se corrigent mutuellement de façon itérative. L'équipe de DeepMind souligne que cette séparation explicite des rôles permet au modèle de détecter des failles qu'il n'aurait pas identifiées lors de la génération initiale.

Les résultats sont marquants. Aletheia atteint 95,1 % de précision sur l'IMO-Proof Bench Advanced, contre un précédent record de 65,7 %. La version de janvier 2026 de Deep Think réduit par 100x la puissance de calcul nécessaire pour atteindre le niveau olympique par rapport à 2025. Déployé contre 700 problèmes ouverts de la base des Conjectures d'Erdős, l'agent a produit 63 solutions techniquement correctes et résolu 4 questions ouvertes de façon autonome. Le papier Feng26, portant sur la géométrie arithmétique, a été intégralement rédigé par Aletheia sans intervention humaine — classé Niveau A2 dans la taxonomie d'autonomie proposée par DeepMind, équivalent d'une recherche publiable essentiellement autonome.

Pour structurer cette classification, DeepMind s'est inspiré des niveaux d'autonomie des véhicules autonomes, définissant un spectre allant du Niveau 0 (humain majoritaire, type Olympiades) au Niveau 2 (essentiellement autonome, recherche publiable). L'utilisation de Google Search et de la navigation web permet à l'agent d'ancrer ses preuves dans la littérature réelle et de limiter les hallucinations de citations — un problème récurrent des grands modèles de langage appliqués aux sciences formelles.

Dans nos dossiers

Gemini Agents IA

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper

1 source

2Towards AI

L'eau met-elle les maths en défaut ? La recherche de DeepMind, guidée par la physique, sur la singularité à 1 000 000 $

DeepMind a utilisé un réseau de neurones informé par la physique (PINN) pour explorer les équations de Navier-Stokes, un problème mathématique fondamental lié à la dynamique des fluides dont la résolution est récompensée par 1 million de dollars. Les méthodes traditionnelles échouaient face aux singularités pouvant générer des vitesses infinies dans les fluides. DeepMind a découvert de nouvelles familles de singularités instables, ouvrant de nouvelles perspectives sur ce problème et illustrant le potentiel de l'IA face aux défis mathématiques complexes.

RecherchePaper

1 source

3MarkTechPost

Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences

Ce tutoriel implémente une version du framework AutoResearch d'Andrej Karpathy dans Google Colab, créant un pipeline d'expérimentation automatisé qui modifie programmatiquement les hyperparamètres de train.py, lance des itérations d'entraînement et évalue les modèles via la métrique bits-per-byte. La boucle de recherche autonome clone le dépôt AutoResearch, ajuste des paramètres comme MAXSEQLEN, DEPTH ou DEVICEBATCHSIZE, puis enregistre chaque expérience dans un tableau structuré. L'objectif est de reproduire le concept de recherche ML autonome — tester, évaluer, conserver les meilleures configurations — sans infrastructure spécialisée ni GPU dédié.

RechercheTuto

1 source

4MarkTechPost

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Google DeepMind a publié le 22 avril 2026 un article de recherche intitulé "Image Generators are Generalist Vision Learners" (arXiv:2604.20329) présentant Vision Banana, un modèle unifié capable d'effectuer simultanément des tâches de compréhension visuelle avancées tout en conservant ses capacités de génération d'images. Ce modèle surpasse des systèmes spécialisés de référence sur plusieurs benchmarks clés : il dépasse SAM 3 en segmentation sémantique et d'instances, et Depth Anything V3 en estimation de profondeur métrique monoculaire, en ajoutant également la prédiction de normales de surface. Vision Banana est construit à partir de Nano Banana Pro (NBP), le générateur d'images de pointe de Google, auquel une procédure d'instruction-tuning légère a été appliquée en intégrant une faible proportion de données de vision par ordinateur dans le mélange d'entraînement d'origine. Ce résultat remet en question une hypothèse fondamentale qui structurait le domaine depuis des années : les modèles génératifs et les modèles discriminatifs étaient considérés comme deux familles distinctes, l'un produisant des images, l'autre les interprétant. L'équipe de Google montre que l'entraînement à la génération d'images réalistes oblige implicitement un modèle à comprendre la géométrie, la sémantique, la profondeur et les relations entre objets. Cette connaissance latente peut ensuite être reformatée pour des tâches de perception, sans ajouter de têtes de décodage spécialisées : toutes les sorties sont exprimées comme des images RGB suivant des schémas de couleurs précis et inversibles, permettant d'en extraire des valeurs quantitatives pour l'évaluation sur benchmark. Aucune donnée des benchmarks d'évaluation n'est incluse dans l'instruction-tuning, ce qui garantit une généralisation réelle plutôt qu'une mémorisation de domaine. L'analogie centrale avancée par l'équipe est celle des grands modèles de langage : de même que le pré-entraînement génératif sur du texte construit des représentations riches réutilisables par instruction-tuning, l'entraînement à la génération d'images jouerait le même rôle fondateur pour la vision. Cette approche présente trois avantages pratiques : un seul modèle couvre un large spectre de tâches en changeant uniquement le prompt, la quantité de nouvelles données nécessaires est faible puisque l'instruction-tuning ne fait qu'apprendre à formater les sorties en RGB, et les capacités génératives initiales sont préservées. Si ce paradigme se confirme à plus grande échelle, il pourrait réduire significativement le coût de développement des systèmes de perception visuelle et relancer le débat sur la frontière entre génération et compréhension dans les architectures multimodales, un enjeu central pour les prochaines générations de modèles fondationnels.

UELes laboratoires et entreprises européens de vision par ordinateur pourraient adopter cette approche unifiée pour réduire significativement le coût de développement de leurs systèmes de perception visuelle, sans impact réglementaire ou commercial direct immédiat.

💬 C'est le genre de résultat qui remet tout à plat. On partait du principe depuis des années que générer des images et comprendre des images, c'étaient deux métiers différents, deux familles de modèles séparées. Google vient de montrer que le générateur apprend la géométrie et la profondeur en chemin, sans qu'on lui demande, et qu'un petit instruction-tuning suffit à reformater ça pour battre SAM 3 ou Depth Anything. Si le parallèle avec les LLM tient vraiment à grande échelle, on va économiser beaucoup de modèles spécialisés.

RecherchePaper

1 source