Aller au contenu principal
Andrej Karpathy publie « Autorecherche », un outil Python de 630 lignes permettant aux agents IA de mener des expériences de ML en autonomie sur un seul GPU
OutilsMarkTechPost15sem· 1 min de lecture

Andrej Karpathy publie « Autorecherche », un outil Python de 630 lignes permettant aux agents IA de mener des expériences de ML en autonomie sur un seul GPU

Source originale ↗·

Andrej Karpathy a publié autoresearch, un outil Python minimaliste de 630 lignes permettant à des agents IA de mener des expériences de machine learning en totale autonomie sur un seul GPU NVIDIA. L'agent lit des instructions en Markdown, modifie le code d'entraînement (architecture, optimiseurs, hyperparamètres), exécute des runs de 5 minutes et ne conserve les changements que si le score bits-per-byte (BPB) s'améliore — Karpathy a ainsi démontré une réduction de la perte de validation de 1,0 à 0,97 BPB. Le PDG de Shopify, Tobi Lutke, a rapidement adapté le framework pour un projet interne, obtenant une amélioration de 19 % des scores de validation, avec un petit modèle optimisé par l'agent surpassant un modèle plus grand configuré manuellement.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le nouveau Colab CLI de Google permet aux développeurs et agents IA d'exécuter Python sur des GPU et TPU distants depuis le terminal
1MarkTechPost 

Le nouveau Colab CLI de Google permet aux développeurs et agents IA d'exécuter Python sur des GPU et TPU distants depuis le terminal

L'équipe Google AI a publié cette semaine le Colab CLI, un outil en ligne de commande qui connecte le terminal local d'un développeur aux runtimes distants de Google Colab. Disponible en open source sous licence Apache 2.0 et installable en une seule commande via uv tool install, l'outil permet d'allouer des sessions de calcul cloud depuis le terminal avec des options matérielles allant du CPU classique aux GPU T4, L4, A100 et H100, ainsi qu'aux puces TPU v5e1 et v6e1. L'interface repose sur un petit ensemble de commandes : colab new pour provisionner une session, colab exec pour exécuter du code Python depuis un fichier local ou l'entrée standard, colab stop pour libérer la machine virtuelle, et colab download ou colab log pour récupérer les résultats sous forme de notebooks .ipynb, fichiers Markdown ou JSONL. Google fournit également un fichier COLAB_SKILL.md qui donne aux agents IA un contexte intégré sur l'utilisation du CLI. Ce qui rend ce lancement significatif, c'est moins la fonctionnalité elle-même que la cible visée : les agents IA. Le Colab CLI est explicitement conçu pour que des outils comme Claude Code, Codex ou l'agent maison Antigravity puissent piloter des pipelines de machine learning de bout en bout sans intervention humaine. Google en fait la démonstration avec un exemple concret : le fine-tuning du modèle Gemma 3 1B via QLoRA sur un jeu de données Text-to-SQL, réalisé par l'agent Antigravity en cinq commandes, sans qu'un seul paramètre de provisionnement cloud ne soit saisi manuellement. Le modèle affiné est ensuite téléchargé localement et prêt à être servi. Pour les développeurs travaillant sur des machines sans GPU, le CLI permet aussi d'externaliser l'entraînement vers le cloud sans quitter leur environnement de travail habituel. Google Colab existe depuis 2017 comme environnement de notebooks Python basé sur le navigateur, largement utilisé dans la communauté recherche et éducation pour son accès gratuit ou peu coûteux aux accélérateurs. Le CLI ne remplace pas cette interface web, il cible un usage radicalement différent : les workflows scriptés, automatisés et pilotés par des agents. Cette distinction reflète une tendance plus large dans l'outillage IA : les agents de codage comme Claude Code ou Codex ont besoin d'accéder à des ressources de calcul sans passer par des interfaces graphiques pensées pour des humains. En positionnant Colab comme une infrastructure compatible avec ces agents, Google s'inscrit dans la course aux plateformes d'exécution pour l'IA agentique, un espace où AWS, Modal et RunPod cherchent aussi à capter les développeurs qui automatisent leurs pipelines ML.

💬 Ce qui m'intéresse, c'est pas le CLI en lui-même : c'est le COLAB_SKILL.md livré avec, un fichier d'instructions taillé pour que des agents comme Claude Code sachent louer un H100 et lancer un fine-tuning sans intervention humaine. Google ne fait pas un outil pour les développeurs, il fait un outil pour que les agents des développeurs aient accès à du calcul cloud sans passer par une interface pensée pour des humains. Reste à voir ce que ça coûte en crédits Colab quand un agent part en vrille à 3h du mat.

OutilsOutil
1 source
NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes
2MarkTechPost 

NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes

NVIDIA a mis en open source OpenShell, un environnement d'exécution sécurisé conçu pour les agents IA autonomes, publié sous licence Apache 2.0. Il offre un sandboxing au niveau noyau, un moteur de politiques granulaires (contrôle par binaire, endpoint et méthode API) avec journalisation complète, ainsi qu'un routage d'inférence privé pour éviter les fuites de données. OpenShell est agnostique aux frameworks — compatible avec Claude Code, Codex, LangChain et autres — et s'intègre comme une couche de sécurité sans réécriture du code agent.

UEOpenShell peut être adopté par les développeurs et entreprises européens pour sécuriser leurs agents IA autonomes, en répondant aux exigences de traçabilité et de contrôle imposées par l'AI Act européen.

OutilsOutil
1 source
Agents IA autonomes : les meilleurs outils à installer en local sur son PC
3Le Big Data 

Agents IA autonomes : les meilleurs outils à installer en local sur son PC

Les agents IA autonomes capables de s'exécuter directement sur un ordinateur personnel constituent une nouvelle génération d'outils radicalement différents des chatbots classiques. Contrairement à ces derniers, ils ne se contentent pas de répondre à des questions : ils planifient et exécutent des missions complexes de façon indépendante, en décomposant un objectif large en étapes logiques, en vérifiant leurs propres résultats et en ajustant leur stratégie en cas d'erreur. Sur le plan technique, ces systèmes s'appuient sur un modèle de langage (LLM) comme moteur de raisonnement, couplé à une mémoire de suivi et à des outils d'action concrets, lecture de fichiers, navigation web, exécution de code. Des frameworks comme LangChain, CrewAI ou AutoGen structurent ces opérations, tandis que des applications comme GPT4All (développée par Nomic AI) ou Ollama permettent de faire tourner localement des modèles comme Llama 3 ou Mistral. Le choix du modèle dépend directement du matériel disponible : un modèle de 7 milliards de paramètres quantifié (Q4/Q5) exige environ 8 Go de VRAM, quand la précision standard (fp16) double ce besoin, et les modèles de 13 à 34 milliards de paramètres requièrent au moins 24 Go. L'intérêt principal de cette exécution en local réside dans la souveraineté des données et l'indépendance opérationnelle. Les documents sensibles ne quittent jamais le disque dur, ce qui supprime les risques liés aux fuites de données sur des serveurs tiers. L'absence de connexion internet requise élimine également les pannes dépendant de services cloud, les frais d'API et les abonnements mensuels. Pour les professionnels manipulant des données confidentielles, données médicales, juridiques, financières, cette rupture avec le cloud représente un changement de paradigme concret. Les outils comme Lain Agent ciblent les utilisateurs non techniques sous Windows sans configuration avancée, tandis qu'AutoGen ou LangChain offrent aux développeurs une flexibilité totale pour connecter ces agents à des systèmes Git, des bases de données ou des pipelines d'automatisation. Ce mouvement vers l'IA locale s'inscrit dans une tendance plus large de démocratisation matérielle accélérée par la montée en puissance des GPU grand public et des puces NPU intégrées dans les processeurs modernes. Pendant des années, exécuter un LLM performant nécessitait une infrastructure serveur hors de portée du particulier. La quantification des modèles et l'optimisation des runtimes comme Ollama ont radicalement abaissé cette barrière. Les acteurs impliqués sont aussi bien des laboratoires de recherche open source (Meta avec Llama, Mistral AI) que des startups spécialisées dans l'outillage local (Nomic AI). La prochaine étape logique sera l'intégration native de ces agents dans les systèmes d'exploitation et les environnements de développement, rendant l'autonomie locale accessible sans aucune configuration technique préalable.

UEMistral AI (entreprise française) est citée comme acteur clé du mouvement open source local, et la souveraineté des données mise en avant répond directement aux contraintes RGPD pesant sur les entreprises européennes.

OutilsOutil
1 source
OpenAI publie Symphony en open source : un SPEC.md pour l'orchestration d'agents de codage autonomes
4InfoQ AI 

OpenAI publie Symphony en open source : un SPEC.md pour l'orchestration d'agents de codage autonomes

OpenAI a publié en open source Symphony, un orchestrateur d'agents de codage autonomes accompagné d'une spécification formelle baptisée SPEC.md. Le système utilise des outils de gestion de projet, comme les gestionnaires de tickets, comme plan de contrôle pour coordonner plusieurs agents travaillant en parallèle. Concrètement, Symphony découpe le travail en "tâches" distinctes, chacune confiée à un agent dédié qui progresse jusqu'à l'achèvement sans intervention humaine continue. Une fois la tâche terminée, un développeur humain examine le résultat avant de valider ou corriger. Ce modèle rompt avec l'approche actuelle où les développeurs supervisent activement chaque session de codage assistée par IA. Avec Symphony, un ingénieur peut déléguer simultanément plusieurs blocs de travail à une flotte d'agents autonomes, ce qui multiplie potentiellement la capacité de production d'une équipe sans augmenter ses effectifs. Pour les entreprises tech, cela annonce des pipelines de développement logiciel beaucoup plus automatisés, où l'humain intervient surtout en phase de validation plutôt qu'en pilotage continu. Symphony émerge dans un contexte de compétition intense autour des agents de codage autonomes. OpenAI affronte Anthropic et son assistant Claude, Google avec Gemini Code Assist, ainsi que des startups comme Cognition AI dont l'agent Devin cible explicitement ce marché. En diffusant Symphony sous forme de spécification ouverte, OpenAI tente d'influencer les standards de l'industrie et d'encourager l'adoption de son approche d'orchestration par d'autres équipes et plateformes. La prochaine étape sera de voir si SPEC.md s'impose comme référence, ou si chaque acteur développe son propre modèle propriétaire.

💬 OpenAI publie une spec ouverte, pas juste du code, et c'est exactement la stratégie qu'on adopte quand on veut que l'industrie entière s'aligne sur ton modèle d'orchestration plutôt que sur celui du voisin. Le truc intéressant dans Symphony, c'est ce glissement : le dev ne pilote plus en continu, il valide à la fin, comme un lead qui fait des code reviews plutôt que du pair-programming permanent. Ça ressemble à du vrai changement de workflow, pas du gadget.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic