Implémenter le Deep Q-Learning (DQN) from Scratch avec RLax, JAX, Haiku et Optax pour entraîner un agent d'apprentissage par renforcement CartPole
Ce tutoriel implémente un agent d'apprentissage par renforcement basé sur le Deep Q-Learning (DQN) en combinant les bibliothèques JAX, RLax (Google DeepMind), Haiku et Optax, sans recourir à un framework RL préemballé. L'agent est entraîné sur l'environnement CartPole-v1 en construisant manuellement le pipeline complet : réseau de neurones, replay buffer, calcul des erreurs de différence temporelle via RLax, et optimisation par gradient. L'objectif pédagogique est de comprendre comment les primitives RL de RLax s'intègrent dans des pipelines personnalisés avec une architecture MLP à deux couches cachées de 128 neurones et l'optimiseur Adam.