Aller au contenu principal
Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences
RechercheMarkTechPost13sem· 1 min de lecture

Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences

Source originale ↗·

Ce tutoriel implémente une version du framework AutoResearch d'Andrej Karpathy dans Google Colab, créant un pipeline d'expérimentation automatisé qui modifie programmatiquement les hyperparamètres de train.py, lance des itérations d'entraînement et évalue les modèles via la métrique bits-per-byte. La boucle de recherche autonome clone le dépôt AutoResearch, ajuste des paramètres comme MAXSEQLEN, DEPTH ou DEVICEBATCHSIZE, puis enregistre chaque expérience dans un tableau structuré. L'objectif est de reproduire le concept de recherche ML autonome — tester, évaluer, conserver les meilleures configurations — sans infrastructure spécialisée ni GPU dédié.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
1MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
Andrej Karpathy : les humains sont désormais le goulot d'étranglement de la recherche en IA face à des résultats faciles à mesurer
2The Decoder 

Andrej Karpathy : les humains sont désormais le goulot d'étranglement de la recherche en IA face à des résultats faciles à mesurer

Andrej Karpathy a confié à un agent autonome l'optimisation de son environnement d'entraînement overnight, et celui-ci a découvert des améliorations qu'il n'avait pas détectées malgré vingt ans d'expérience. Selon Karpathy, les humains sont désormais le goulot d'étranglement de la recherche en IA, notamment pour les tâches aux résultats facilement mesurables.

RecherchePaper
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
3MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source
Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes
4MarkTechPost 

Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes

Google DeepMind a présenté Aletheia, un agent AI spécialisé pour relier les compétitions mathématiques à la recherche professionnelle. Aletheia, basé sur Gemini Deep Think, utilise une architecture d'agencement (Generator, Verifier, Reviser) pour générer, vérifier et corriger des solutions en langage naturel. Aletheia a atteint 95.1% d'exactitude sur le banc de tests IMO-Proof Advanced et a contribué à plusieurs publications académiques, y compris la résolution autonome de 4 problèmes ouverts. DeepMind propose une classification pour les contributions mathématiques de l'IA, allant de la collaboration humain-IA (niveau 1) à l'autonomie quasi complète (niveau 2).

RechercheOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic