Aller au contenu principal
OutilsMarkTechPost2sem

Andrej Karpathy publie « Autorecherche », un outil Python de 630 lignes permettant aux agents IA de mener des expériences de ML en autonomie sur un seul GPU

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Andrej Karpathy a publié autoresearch, un outil Python minimaliste de 630 lignes permettant à des agents IA de mener des expériences de machine learning en totale autonomie sur un seul GPU NVIDIA. L'agent lit des instructions en Markdown, modifie le code d'entraînement (architecture, optimiseurs, hyperparamètres), exécute des runs de 5 minutes et ne conserve les changements que si le score bits-per-byte (BPB) s'améliore — Karpathy a ainsi démontré une réduction de la perte de validation de 1,0 à 0,97 BPB. Le PDG de Shopify, Tobi Lutke, a rapidement adapté le framework pour un projet interne, obtenant une amélioration de 19 % des scores de validation, avec un petit modèle optimisé par l'agent surpassant un modèle plus grand configuré manuellement.

Andrej Karpathy released autoresearch , a minimalist Python tool designed to enable AI agents to autonomously conduct machine learning experiments. The project is a stripped-down version of the nanochat LLM training core, condensed into a single-file repository of approximately ~ 630 lines of code . It is optimized for execution on a single NVIDIA GPU . The Autonomous Iteration Loop The framework establishes a specific division of labor between the human researcher and the AI agent. The system operates on a continuous feedback loop where progress is tracked via git commits on a feature branch. Component Responsibility File Format Human Iterates on high-level research instructions and constraints. .md (Markdown) AI Agent Proposes and implements modifications to the training script. .py (Python) Execution Conducts a fixed-length training run to evaluate the changes. Shell/Python The agent reads the human-provided instructions, modifies the training code—adjusting neural network architecture, optimizers, or hyperparameters—and executes a training run that lasts exactly five minutes . Evaluation Metrics and Validation To ensure the agent only retains beneficial changes, the system uses bits-per-byte (BPB) as the primary validation metric. BPB measures the compression efficiency of the model on a validation dataset; a lower score indicates a more accurate model. Validation Protocol: The agent only commits code changes to the git branch if the final BPB score is lower than the previous best. Observed Performance: In initial runs, Karpathy demonstrated the agent successfully reducing validation loss from 1.0 to 0.97 BPB through autonomous code iteration. Granularity: Every completed 5-minute training run is represented as a data point, allowing researchers to compare the effectiveness of different prompts or agent configurations over time. Case Study: Implementation by Shopify’s Tobi Lutke Following the release, Shopify CEO Tobi Lutke adapted the autoresearch framework for an internal project. By allowing the agent to iterate on a smaller model architecture, Lutke reported a 19% improvement in validation scores. Notably, the agent-optimized smaller model eventually outperformed a larger model that had been configured through standard manual methods. OK this thing is totally insane. Before going to bed I… * used try to make a new qmdresearcher directory * told my pi to read this github repo and make a version of that for the qmd query-expansion model with the goal of highest quality score and speed. Get training data from… https://t.co/hbCfD62ElJ — tobi lutke (@tobi) March 8, 2026 Karpathy noted that the specific code tweaks discovered by the agent were later integrated back into his broader nanochat framework, demonstrating that the tool can discover optimizations applicable to larger-scale production systems. I packaged up the "autoresearch" project into a new self-contained minimal repo if people would like to play over the weekend. It's basically nanochat LLM training core stripped down to a single-GPU, one file version of ~630 lines of code, then: – the human iterates on the… pic.twitter.com/3tyOq2P9c6 — Andrej Karpathy (@karpathy) March 7, 2026 Technical Significance for Devs For Devs, autoresearch represents a shift toward ‘agentic’ workflows in model development. Rather than manually tuning hyperparameters, the engineering task shifts to prompt engineering the agent to navigate the search space more effectively. The ~630-line constraint ensures that the entire codebase fits within the context window of modern LLMs, minimizing errors in code generation and allowing the agent to maintain a ‘holistic’ understanding of the training script. Key Takeaways Autonomous Research Loop: The framework enables AI agents to autonomously iterate on ML experiments by reading a human-provided Markdown (.md) instruction file and modifying a Python (.py) training script without manual intervention. ~630-Line Core: By stripping the nanochat LLM training core down to a single-file, ~630-line repository, the codebase is small enough to fit entirely within an LLM’s context window, reducing code generation errors. Efficiency-Driven Metrics: The agent runs fixed 5-minute training sprints on a single NVIDIA GPU and only commits code changes to a git feature branch if they result in a lower bits-per-byte (BPB) validation score. Proven Performance Gains: In a real-world test (as mentioned on a tweet), Shopify CEO Tobi Lutke used the tool to achieve a 19% improvement in model scores, resulting in a smaller, agent-optimized model that outperformed a larger, manually configured one. Shift in Engineering Focus: The project moves the developer’s role from manual hyperparameter tuning to agent engineering , where the goal is to optimize the prompts that direct the AI to find the most efficient neural architectures and training settings. Check out the Repo here . Also, feel free to follow us on Twitter and don’t forget to join our 120k+ ML Su

À lire aussi

1The Verge AI1h

Le mode automatique de Claude Code d'Anthropic devient plus sûr

Anthropic a lancé un nouveau mode appelé « auto mode » pour Claude Code, son outil de codage assisté par IA. Cette fonctionnalité permet à l'agent de prendre des décisions autonomes concernant les permissions, sans nécessiter une validation manuelle constante de l'utilisateur. Elle s'adresse particulièrement aux développeurs qui souhaitent déléguer davantage de tâches à l'IA tout en conservant un filet de sécurité. L'enjeu est de taille : Claude Code peut agir de manière indépendante, ce qui présente des risques réels comme la suppression de fichiers, la fuite de données sensibles ou l'exécution d'instructions malveillantes. L'auto mode vise à combler le fossé entre une supervision permanente — jugée contraignante — et une autonomie totale jugée dangereuse. Concrètement, le système détecte et bloque les actions potentiellement risquées avant leur exécution, tout en proposant à l'agent une alternative plus sûre. Anthropic positionne ainsi Claude Code dans un segment en pleine expansion : les outils d'IA « agentiques » capables d'agir seuls sur un poste de travail, un marché où la gestion des risques devient un argument commercial différenciant.

OutilsOutil
1 source
2Blog du Modérateur1h

ChatGPT enrichit son expérience shopping et abandonne Instant Checkout

OpenAI a mis à jour l'interface shopping de ChatGPT, la rendant plus visuelle et intuitive. La nouvelle version permet de comparer les produits plus facilement et introduit une recherche par image. En parallèle, la fonctionnalité Instant Checkout, qui permettait d'acheter directement depuis le chatbot, a été abandonnée. Ce repositionnement transforme ChatGPT en outil de découverte et de comparaison plutôt qu'en canal de vente directe. Cela redirige les utilisateurs vers les marchands pour finaliser leurs achats, ce qui soulage les tensions avec les retailers tout en conservant ChatGPT comme point d'entrée dans le parcours d'achat. Cette évolution s'inscrit dans la montée en puissance des assistants IA comme moteurs de recherche commerciale, en concurrence directe avec Google Shopping et Amazon.

OutilsOutil
1 source
3NVIDIA AI Blog1h

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Lors du match de l'Euro 2020 entre l'Angleterre et l'Allemagne, des millions de téléspectateurs britanniques ont allumé leur bouilloire à la mi-temps simultanément, provoquant un pic de demande d'environ 1 gigawatt sur le réseau électrique national — l'équivalent d'un réacteur nucléaire standard. C'est ce phénomène, surnommé le "TV pickup", qui a inspiré une démonstration inédite menée en décembre 2025 à Londres par Emerald AI, en collaboration avec NVIDIA, EPRI, National Grid et Nebius. L'expérience s'est déroulée dans une "usine IA" construite sur l'infrastructure NVIDIA de Nebius, équipée de 96 GPU NVIDIA Blackwell Ultra connectés via la plateforme InfiniBand NVIDIA Quantum-X800. En simulant ce même pic d'énergie lié au match de football, le cluster IA a automatiquement réduit sa consommation pour absorber le choc — sans interrompre les charges de travail prioritaires. Cette technologie, baptisée Emerald AI Conductor Platform, ouvre une perspective concrète pour la gestion des réseaux électriques sous tension. Les usines IA, habituellement perçues comme de nouveaux fardeau énergétiques, deviennent ici des actifs flexibles capables d'ajuster leur consommation en quelques secondes selon des signaux envoyés par les gestionnaires de réseau. Lors des tests, le système a respecté 100 % des plus de 200 cibles de puissance définies par EPRI et National Grid, couvrant non seulement les GPU mais aussi les CPU et l'ensemble des équipements informatiques. En pratique, cela signifie que le réseau peut gérer les pics de demande avec les capacités existantes, sans avoir à construire d'infrastructures permanentes surdimensionnées pour les scénarios les plus extrêmes — ce qui contribue directement à limiter la hausse des tarifs pour les consommateurs. Pour les opérateurs de centres de données, l'avantage est également majeur : cette flexibilité leur permet d'obtenir des raccordements au réseau bien plus rapidement, sans attendre des années de travaux d'infrastructure. Après des essais probants dans trois États américains — Arizona, Virginie et Illinois —, Emerald AI a transposé son approche au Royaume-Uni, dans un contexte où la croissance explosive des besoins énergétiques liés à l'IA met sous pression les gestionnaires de réseaux du monde entier.

UELes gestionnaires de réseaux européens confrontés à la même explosion des besoins énergétiques liés à l'IA pourraient adopter cette approche pour stabiliser leur réseau sans surinvestissement en infrastructures permanentes.

OutilsActu
1 source
4InfoQ AI1h

Podcast : [Vidéo] Systèmes agentiques sans chaos : premiers modèles opérationnels pour agents autonomes

Shweta Vohra et Joseph Stein consacrent un épisode de podcast à la question des systèmes agentiques — ces logiciels capables de planifier, d'agir et de prendre des décisions de manière autonome. Les deux experts y examinent ce qui distingue véritablement un agent IA d'une simple automatisation traditionnelle, et comment concevoir ces systèmes sans perdre le contrôle. La discussion porte sur les défis concrets pour les architectes et ingénieurs : comment définir les limites d'action d'un agent, comment orchestrer plusieurs agents entre eux, et quels modèles organisationnels adopter dès les premières phases de déploiement. L'enjeu est de tirer parti de l'autonomie de ces systèmes tout en évitant le chaos opérationnel. Le sujet s'inscrit dans une réflexion plus large sur la maturité croissante des agents IA, qui passent progressivement du statut d'assistants réactifs à celui d'acteurs autonomes dans les infrastructures logicielles.

OutilsOpinion
1 source