
Les agents RL passent du plantage au parkour en multipliant les couches du réseau
Une équipe de chercheurs vient de démontrer que l'apprentissage par renforcement (RL) souffrait depuis des années d'un goulot d'étranglement insoupçonné : la profondeur des réseaux de neurones. En portant le nombre de couches jusqu'à 1 024, contre les 2 à 5 habituellement utilisées, ils ont obtenu des gains de performance allant de 2x à 50x — et vu des comportements entièrement inédits émerger spontanément chez leurs agents.
L'apprentissage par renforcement est la technique qui permet à des agents virtuels d'apprendre par essais et erreurs, en maximisant une récompense. C'est cette approche qui a produit les IA de jeux vidéo surhumaines d'OpenAI et DeepMind, et qui alimente aujourd'hui une partie de la recherche en robotique. Que de simples choix architecturaux aient bridé ses capacités pendant des décennies représente un signal fort : le potentiel du RL est loin d'être épuisé, et des gains massifs pourraient être accessibles sans changer les algorithmes fondamentaux.
L'expérience a été conduite avec un agent auto-supervisé — un paradigme où l'agent génère lui-même ses propres signaux d'apprentissage, sans étiquetage humain. À faible profondeur, les agents peinent à accomplir des tâches basiques de locomotion, trébuchant et s'effondrant. À mesure que les chercheurs empilent les couches vers 512 puis 1 024, les mêmes agents commencent à exécuter des enchaînements fluides évoquant du parkour — sauts, roulades, franchissements d'obstacles — sans que ces comportements aient été explicitement programmés.
Ces résultats relancent une question structurante pour le domaine : les lois d'échelle (scaling laws) qui ont révolutionné les grands modèles de langage s'appliquent-elles aussi à l'apprentissage par renforcement ? Si oui, augmenter la taille des réseaux RL pourrait devenir aussi systématiquement bénéfique que pour les LLM, ouvrant la voie à des agents incarnés bien plus capables dans des environnements physiques réels.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


