Aller au contenu principal
Implémenter le Deep Q-Learning (DQN) from Scratch avec RLax, JAX, Haiku et Optax pour entraîner un agent d'apprentissage par renforcement CartPole
OutilsMarkTechPost12sem· 1 min de lecture

Implémenter le Deep Q-Learning (DQN) from Scratch avec RLax, JAX, Haiku et Optax pour entraîner un agent d'apprentissage par renforcement CartPole

Source originale ↗·

Google DeepMind met à disposition RLax, une bibliothèque de recherche en apprentissage par renforcement conçue pour s'intégrer nativement à l'écosystème JAX. Un tutoriel récent illustre comment assembler manuellement un agent Deep Q-Learning (DQN) complet, en combinant RLax avec Haiku pour la modélisation neuronale et Optax pour l'optimisation, afin d'entraîner un agent sur l'environnement de référence CartPole.

L'intérêt de cette approche réside dans la transparence du pipeline : plutôt que d'utiliser un framework RL clé en main, le développeur construit chaque brique lui-même, ce qui permet de comprendre précisément comment interagissent les composants fondamentaux de l'apprentissage par renforcement. Pour les chercheurs et ingénieurs souhaitant adapter ou expérimenter de nouveaux algorithmes, cette granularité est essentielle — les frameworks tout-en-un masquent souvent les détails qui font la différence en production ou en recherche.

L'architecture repose sur un réseau de neurones à deux couches cachées de 128 neurones chacune, initialisé via Haiku, avec un replay buffer de 50 000 transitions pour stabiliser l'apprentissage. La stratégie d'exploration epsilon-greedy décroît de 1,0 à 0,05 sur 20 000 frames, assurant une transition progressive de l'exploration vers l'exploitation. L'optimiseur combine un clipping de gradient à norme 10 avec Adam (lr = 3e-4). RLax intervient pour le calcul des erreurs de différence temporelle, fournissant des primitives RL réutilisables sans imposer de structure rigide.

Cette approche modulaire illustre bien la philosophie de JAX et de l'écosystème DeepMind : des briques composables plutôt que des abstractions monolithiques. Elle s'adresse avant tout aux praticiens qui veulent maîtriser l'implémentation avant de déléguer à un framework, une compétence de plus en plus valorisée dans les équipes de recherche appliquée en IA.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Une implémentation de code illustrant l'orchestration multi-agents en essaim de ClawTeam avec les appels de fonctions OpenAI

ClawTeam est un framework open-source d'intelligence collective multi-agents développé par HKUDS, permettant à un agent leader de décomposer des objectifs complexes en sous-tâches confiées à des agents spécialisés autonomes. Le système repose sur un tableau de tâches partagé avec résolution automatique des dépendances et une messagerie inter-agents pour la coordination en temps réel. Ce tutoriel implémente ces concepts via l'API OpenAI (modèle gpt-4o-mini) et est conçu pour fonctionner directement dans Google Colab, sans infrastructure locale.

OutilsOutil
1 source
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
2MarkTechPost 

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand. L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases. Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

UEHugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

OutilsOutil
1 source
Des chercheurs de Stanford publient OpenJarvis : un framework local pour créer des agents IA personnels dotés d'outils, de mémoire et d'apprentissage
3MarkTechPost 

Des chercheurs de Stanford publient OpenJarvis : un framework local pour créer des agents IA personnels dotés d'outils, de mémoire et d'apprentissage

Des chercheurs de Stanford ont publié OpenJarvis, un framework open-source permettant de construire des agents IA personnels fonctionnant entièrement en local, sans dépendance au cloud. Le projet repose sur cinq primitives composables (Intelligence, Engine, Agents, Tools & Memory, Learning) et s'appuie sur des résultats antérieurs montrant que les modèles locaux peuvent traiter 88,7 % des requêtes avec une efficacité améliorée de 5,3× entre 2023 et 2025. OpenJarvis supporte plusieurs backends d'inférence (Ollama, vLLM, llama.cpp) et vise à standardiser le développement d'agents IA locaux mesurables et adaptables.

OutilsPaper
1 source
OpenJarvis : un framework local pour agents IA personnels avec outils, mémoire et apprentissage
4MarkTechPost 

OpenJarvis : un framework local pour agents IA personnels avec outils, mémoire et apprentissage

Des chercheurs de l'Université Stanford et de Lambda Labs ont publié en mai 2026 OpenJarvis, un framework open-source conçu pour faire tourner des agents IA personnels entièrement en local, sans recours au cloud. Disponible sur GitHub avec déjà plus de 5 400 étoiles, le projet s'appuie sur onze modèles locaux issus de quatre familles (Qwen3.5, Gemma4, Nemotron, Granite) et supporte des moteurs d'inférence variés comme Ollama, vLLM ou llama.cpp. Les performances mesurées sur 508 tâches réparties en huit benchmarks montrent que les modèles configurés via OpenJarvis se situent à seulement 3,2 points de pourcentage en dessous des meilleurs modèles cloud, Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, tout en affichant une latence quatre fois plus faible et un coût marginal par requête environ 800 fois inférieur. Ce résultat change concrètement l'équation pour les développeurs et les entreprises qui cherchent à déployer des agents IA sans dépendre d'APIs tierces. OpenJarvis décompose un système d'IA personnelle en cinq primitives indépendantes et interchangeables, le modèle, le moteur d'inférence, la logique d'agent, les outils et la mémoire, puis l'optimiseur d'apprentissage, toutes configurables via un unique fichier TOML appelé "spec". Cette architecture permet à un même comportement d'agent de fonctionner sur un Mac Mini M4 comme sur une station de travail NVIDIA DGX Spark, sans réécrire les prompts. L'installation tient en une seule commande et prend environ trois minutes sur une connexion correcte. La contribution la plus originale du projet réside dans la "LLM-guided spec search", une méthode d'optimisation hybride locale-cloud : un modèle frontier agit comme enseignant au moment de la configuration, en analysant les traces d'exécution, diagnostiquant les échecs et proposant des modifications coordonnées sur l'ensemble des primitives. Une modification n'est acceptée que si elle améliore les cas défaillants sans provoquer de régressions ailleurs, avec une tolérance par défaut de 1%. Une fois optimisé, le système tourne entièrement en local sans aucun appel cloud. À 100 requêtes par jour, le coût amorti de cet enseignant descend sous 0,001 dollar par requête au bout de six mois. Cette approche multi-primitive récupère 13 à 32 points de pourcentage de l'écart cloud-local, contre seulement 5 points pour les optimiseurs de prompts classiques, à un coût d'optimisation 7 à 11 fois inférieur aux méthodes antérieures comme DSPy ou LoRA. Le projet s'inscrit dans un contexte où les modèles locaux gèrent déjà 88,7% des requêtes conversationnelles courantes selon une étude antérieure de la même équipe, et où l'efficacité des modèles embarqués a progressé de 5,3 fois entre 2023 et 2025.

UELes entreprises européennes soumises au RGPD peuvent déployer des agents IA performants entièrement en local sans transférer leurs données vers des services cloud américains, réduisant leur exposition aux risques de non-conformité et renforçant leur souveraineté numérique.

💬 3,2 points de moins que Claude Opus ou GPT-5, pour un coût 800 fois inférieur : à ce ratio, la question n'est plus "cloud ou local". Le truc malin c'est la spec search guidée, tu laisses un frontier calibrer ta config une fois, puis plus aucun appel cloud ensuite. Bon, faudra voir si leurs 508 tâches de benchmark ressemblent à ce qu'on rencontre vraiment en prod.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic