Aller au contenu principal
Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines
RechercheVentureBeat AI6sem· 2 min de lecture

Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines

Source originale ↗·

Des chercheurs du Generative Artificial Intelligence Research Lab (SII-GAIR) ont présenté ASI-EVOLVE, un cadre agentique conçu pour automatiser l'ensemble du cycle de recherche et développement en intelligence artificielle. Le système opère en boucle continue selon quatre étapes, apprentissage, conception, expérimentation, analyse, et prend en charge simultanément trois piliers fondamentaux du développement IA : les données d'entraînement, les architectures de modèles et les algorithmes d'apprentissage. Lors des premières expérimentations, ASI-EVOLVE a généré de nouvelles architectures de modèles de langage, optimisé des pipelines de pré-entraînement pour améliorer les scores de référence de plus de 18 points, et conçu des algorithmes de renforcement nettement plus efficaces, surpassant dans chaque cas les configurations élaborées par des ingénieurs humains.

Ce type de système répond à un problème structurel qui ralentit toute la recherche en IA : les équipes d'ingénierie ne peuvent explorer qu'une fraction infime de l'espace des configurations possibles. Chaque cycle d'expérimentation exige des interventions manuelles coûteuses, mobilise des dizaines voire des centaines d'heures de GPU, et les enseignements tirés restent souvent cloisonnés dans l'expérience individuelle des chercheurs, difficiles à capitaliser ou à transmettre. En automatisant cette boucle, ASI-EVOLVE libère les équipes de la charge opérationnelle répétitive et accélère mécaniquement le rythme d'innovation. Pour les organisations qui itèrent fréquemment sur leurs systèmes IA, le gain potentiel est à la fois en temps d'ingénierie et en qualité des résultats.

L'architecture repose sur deux composants centraux. La "Cognition Base" fonctionne comme une mémoire experte préchargée : elle intègre des connaissances humaines issues de la littérature scientifique, des heuristiques propres à chaque tâche, et un catalogue des pièges connus, ce qui oriente les explorations dès la première itération plutôt que de repartir de zéro. L'"Analyzer" prend en charge le retour d'expérience multidimensionnel des expériences, logs d'entraînement bruts, résultats de benchmarks, traces d'efficacité computationnelle, pour en distiller des analyses causales réutilisables. Ce travail s'inscrit dans un contexte où l'IA commence à s'attaquer à la découverte scientifique, d'AlphaFold aux systèmes agentiques généralistes, mais où la recherche ouverte sur les fondations mêmes de l'IA reste un défi à part entière. ASI-EVOLVE représente l'une des premières démonstrations concrètes qu'un système unifié peut progresser simultanément sur les trois axes constitutifs du développement de modèles, ouvrant la voie à une automatisation plus profonde du cycle de R&D en IA.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
1MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts
2MarkTechPost 

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

Des chercheurs de Google DeepMind ont publié une étude présentant AlphaEvolve, un système d'évolution de code piloté par un grand modèle de langage capable de réécrire et d'améliorer automatiquement des algorithmes de théorie des jeux. Appliqué à deux paradigmes de référence en apprentissage par renforcement multi-agents (MARL) — le Counterfactual Regret Minimization (CFR) et le Policy Space Response Oracles (PSRO) — le système a découvert de nouvelles variantes qui égalent ou surpassent les meilleures solutions conçues manuellement par des experts. Tous les tests ont été conduits dans le cadre OpenSpiel, sur des jeux à information imparfaite comme le poker de Kuhn à trois joueurs, le Leduc Poker, le Goofspiel et le Liar's Dice. Le modèle LLM utilisé pour muter le code source est Gemini 2.5 Pro. Ce travail représente un changement de paradigme dans la conception d'algorithmes pour les jeux stratégiques complexes, un domaine où les chercheurs passaient jusqu'ici des mois à affiner manuellement des règles de pondération, de discount et de convergence. AlphaEvolve automatise entièrement ce processus d'exploration : à chaque génération, un algorithme parent est sélectionné selon ses performances, son code source est transmis au LLM avec une consigne de modification, et le candidat résultant est évalué sur un ensemble de jeux d'entraînement. La variante CFR découverte, baptisée VAD-CFR (Volatility-Adaptive Discounted CFR), introduit notamment un mécanisme de discount adaptatif basé sur la volatilité, là où les variantes classiques comme DCFR ou PCFR+ appliquent des règles statiques définies par des humains. L'implication pratique est directe : des algorithmes qui convergent plus vite vers un équilibre de Nash signifient des agents de jeu plus efficaces, avec des applications potentielles en simulation économique, en sécurité et en IA adversariale. Google DeepMind s'inscrit ici dans une tendance plus large d'automatisation de la recherche en IA, où les LLM ne servent plus seulement à générer du texte mais à explorer des espaces de conception algorithmique. CFR est à la base de systèmes comme Libratus et Pluribus, les IA de poker qui ont battu les meilleurs joueurs humains en 2017 et 2019 ; améliorer ses variantes reste donc un enjeu concret pour les applications de prise de décision sous incertitude. Le framework AlphaEvolve avait déjà été utilisé par DeepMind pour optimiser des noyaux de calcul dans des contextes d'infrastructure. Son application aux algorithmes de théorie des jeux ouvre la voie à une automatisation plus systématique de la recherche en MARL, avec la question ouverte de jusqu'où un LLM peut explorer un espace algorithmique avant de buter sur des limites structurelles que l'intuition humaine seule saurait franchir.

RecherchePaper
1 source
Des chercheurs ont laissé Claude Code découvrir des algorithmes d'IA qu'un humain n'aurait probablement pas conçus
3The Decoder 

Des chercheurs ont laissé Claude Code découvrir des algorithmes d'IA qu'un humain n'aurait probablement pas conçus

Des chercheurs de l'Université du Maryland, de Google, de Meta et d'autres institutions ont mis au point AutoTTS, un système qui confie à un agent de codage - Claude Code d'Anthropic - la tâche de concevoir de façon autonome des algorithmes pour améliorer le raisonnement des modèles d'IA. En 160 minutes et pour seulement 40 dollars, l'agent a découvert un algorithme inédit qui réduit d'environ 70 % la charge de calcul par rapport à la méthode self-consistency standard, tout en atteignant une précision équivalente. Ce résultat change la donne sur la façon dont les algorithmes d'optimisation pourraient être développés. La méthode self-consistency, qui consiste à générer plusieurs réponses et à en extraire la plus cohérente, est largement utilisée pour améliorer la fiabilité des grands modèles de langage, mais elle reste coûteuse en ressources. Réduire ce coût de 70 % sans perte de précision représente un gain concret pour les équipes qui déploient ces systèmes à grande échelle, et soulève une question plus profonde : certains algorithmes utiles sont peut-être inaccessibles à l'intuition humaine. Ce travail s'inscrit dans la tendance croissante du test-time scaling, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement. Confier à un agent IA la conception d'algorithmes que des chercheurs humains n'auraient probablement pas imaginés ouvre une nouvelle frontière dans la méta-optimisation. La question qui se pose désormais est de savoir jusqu'où cette automatisation peut s'étendre, et si d'autres domaines de la recherche en IA pourraient bénéficier d'une approche similaire.

💬 40 dollars, 160 minutes, et un algo qui réduit de 70% les coûts de calcul qu'aucun chercheur n'avait pensé à chercher là. C'est ça qui est troublant, pas la perf en elle-même : certains espaces de solutions sont peut-être hors de portée de l'intuition humaine, et on commence juste à s'en rendre compte. Reste à voir si ça tient hors benchmark.

RecherchePaper
1 source
ADeLe : prédire et expliquer les performances de l'IA selon les tâches
4Microsoft Research 

ADeLe : prédire et expliquer les performances de l'IA selon les tâches

Des chercheurs de Microsoft, en collaboration avec l'Université de Princeton et l'Universitat Politècnica de València, ont publié dans la revue Nature une méthode inédite d'évaluation des modèles d'IA baptisée ADeLe — pour AI Evaluation with Demand Levels. Présentée dans l'article « General Scales Unlock AI Evaluation with Explanatory and Predictive Power », cette approche évalue simultanément les tâches et les modèles selon 18 capacités fondamentales — attention, raisonnement, connaissances de domaine, métacognition, entre autres — en leur attribuant un score de 0 à 5. Appliquée à 15 grands modèles de langage dont GPT-4o et Llama-3.1, la méthode permet de prédire les performances sur des tâches inédites avec une précision d'environ 88 %. Les travaux ont bénéficié du programme de financement AFMR (Accelerating Foundation Models Research) de Microsoft. L'apport concret d'ADeLe réside dans sa capacité à dépasser les scores agrégés des benchmarks classiques, qui mesurent ce qu'un modèle réussit sans expliquer pourquoi il échoue ni anticiper ses comportements sur de nouvelles tâches. En construisant un profil de capacités pour chaque modèle — une cartographie structurée de ses forces et faiblesses — et en le confrontant aux exigences précises d'une tâche donnée, ADeLe identifie les lacunes spécifiques à l'origine des erreurs. La méthode révèle également que de nombreux benchmarks largement utilisés donnent une image incomplète, voire trompeuse : un test censé mesurer le raisonnement logique peut en réalité dépendre fortement de connaissances spécialisées ou de métacognition, faussant ainsi l'interprétation des résultats. Pour les équipes qui développent ou déploient des LLMs, cette granularité change radicalement la façon d'interpréter une évaluation. L'évaluation des LLMs souffre depuis plusieurs années d'un problème structurel : les benchmarks standard comme MMLU ou HumanEval mesurent des performances globales sur des jeux de tests fixes, sans permettre de généraliser ni de diagnostiquer. ADeLe s'inscrit dans une tendance plus large de la communauté de recherche à vouloir rendre l'évaluation plus explicable et plus prédictive, à mesure que les modèles deviennent des composants critiques dans des systèmes professionnels. La publication dans Nature — une revue généraliste de premier rang, inhabituelle pour ce type de travaux en IA — signale l'ambition scientifique du projet. Les prochaines étapes pourraient inclure l'extension du cadre à des modalités au-delà du texte, et son adoption par des organismes d'évaluation indépendants cherchant des alternatives aux classements simplistes.

UELa co-participation de l'Universitat Politècnica de València positionne ADeLe comme candidat naturel pour les organismes d'évaluation européens chargés de mettre en œuvre les exigences de l'AI Act sur la transparence et la robustesse des modèles.

💬 Les benchmarks classiques te donnent un score global, mais zéro explication sur ce qui foire et pourquoi. ADeLe décompose ça en 18 capacités mesurables, confronte le profil du modèle aux exigences précises de la tâche, et prédit les perfs à 88% sur des cas inédits, ce qui est franchement solide pour de la recherche académique. Publication dans Nature en plus, c'est le genre de signal qui dit que l'évaluation des LLMs commence enfin à être traitée comme un vrai problème scientifique.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic