Aller au contenu principal
Implémenter le Deep Q-Learning (DQN) from Scratch avec RLax, JAX, Haiku et Optax pour entraîner un agent d'apprentissage par renforcement CartPole
OutilsMarkTechPost6sem

Implémenter le Deep Q-Learning (DQN) from Scratch avec RLax, JAX, Haiku et Optax pour entraîner un agent d'apprentissage par renforcement CartPole

Résumé IASource uniqueImpact UE
Source originale ↗·

Google DeepMind met à disposition RLax, une bibliothèque de recherche en apprentissage par renforcement conçue pour s'intégrer nativement à l'écosystème JAX. Un tutoriel récent illustre comment assembler manuellement un agent Deep Q-Learning (DQN) complet, en combinant RLax avec Haiku pour la modélisation neuronale et Optax pour l'optimisation, afin d'entraîner un agent sur l'environnement de référence CartPole.

L'intérêt de cette approche réside dans la transparence du pipeline : plutôt que d'utiliser un framework RL clé en main, le développeur construit chaque brique lui-même, ce qui permet de comprendre précisément comment interagissent les composants fondamentaux de l'apprentissage par renforcement. Pour les chercheurs et ingénieurs souhaitant adapter ou expérimenter de nouveaux algorithmes, cette granularité est essentielle — les frameworks tout-en-un masquent souvent les détails qui font la différence en production ou en recherche.

L'architecture repose sur un réseau de neurones à deux couches cachées de 128 neurones chacune, initialisé via Haiku, avec un replay buffer de 50 000 transitions pour stabiliser l'apprentissage. La stratégie d'exploration epsilon-greedy décroît de 1,0 à 0,05 sur 20 000 frames, assurant une transition progressive de l'exploration vers l'exploitation. L'optimiseur combine un clipping de gradient à norme 10 avec Adam (lr = 3e-4). RLax intervient pour le calcul des erreurs de différence temporelle, fournissant des primitives RL réutilisables sans imposer de structure rigide.

Cette approche modulaire illustre bien la philosophie de JAX et de l'écosystème DeepMind : des briques composables plutôt que des abstractions monolithiques. Elle s'adresse avant tout aux praticiens qui veulent maîtriser l'implémentation avant de déléguer à un framework, une compétence de plus en plus valorisée dans les équipes de recherche appliquée en IA.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Une implémentation de code illustrant l'orchestration multi-agents en essaim de ClawTeam avec les appels de fonctions OpenAI

ClawTeam est un framework open-source d'intelligence collective multi-agents développé par HKUDS, permettant à un agent leader de décomposer des objectifs complexes en sous-tâches confiées à des agents spécialisés autonomes. Le système repose sur un tableau de tâches partagé avec résolution automatique des dépendances et une messagerie inter-agents pour la coordination en temps réel. Ce tutoriel implémente ces concepts via l'API OpenAI (modèle gpt-4o-mini) et est conçu pour fonctionner directement dans Google Colab, sans infrastructure locale.

OutilsOutil
1 source
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
2MarkTechPost 

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand. L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases. Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

UEHugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

OutilsOutil
1 source
Des chercheurs de Stanford publient OpenJarvis : un framework local pour créer des agents IA personnels dotés d'outils, de mémoire et d'apprentissage
3MarkTechPost 

Des chercheurs de Stanford publient OpenJarvis : un framework local pour créer des agents IA personnels dotés d'outils, de mémoire et d'apprentissage

Des chercheurs de Stanford ont publié OpenJarvis, un framework open-source permettant de construire des agents IA personnels fonctionnant entièrement en local, sans dépendance au cloud. Le projet repose sur cinq primitives composables (Intelligence, Engine, Agents, Tools & Memory, Learning) et s'appuie sur des résultats antérieurs montrant que les modèles locaux peuvent traiter 88,7 % des requêtes avec une efficacité améliorée de 5,3× entre 2023 et 2025. OpenJarvis supporte plusieurs backends d'inférence (Ollama, vLLM, llama.cpp) et vise à standardiser le développement d'agents IA locaux mesurables et adaptables.

OutilsPaper
1 source
Une implémentation de code pour concevoir un moteur de compétences auto-évolutif avec OpenSpace : apprentissage de compétences, efficacité des tokens et intelligence collective
4MarkTechPost 

Une implémentation de code pour concevoir un moteur de compétences auto-évolutif avec OpenSpace : apprentissage de compétences, efficacité des tokens et intelligence collective

OpenSpace, un moteur de compétences auto-évolutif développé par HKUDS, permet aux agents IA d'apprendre et de réutiliser des compétences accumulées au fil des tâches, réduisant ainsi les coûts de traitement. Le système s'appuie sur trois modes d'évolution (FIX, DERIVED, CAPTURED) et une base de données SQLite pour stocker les compétences réutilisables. Sur le benchmark GDPVal (50 tâches professionnelles réelles), OpenSpace démontre une amélioration de 4,2x des performances et une réduction de 46 % des tokens consommés, avec une plateforme communautaire open-space.cloud permettant le partage de compétences entre agents.

OutilsPaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour