Les lois d'échelle, examinées avec rigueur
Les lois d'échelle (scaling laws) constituent l'une des découvertes empiriques les plus déterminantes de l'apprentissage profond moderne. Le principe est d'une élégante simplicité : la perte d'entraînement L d'un modèle diminue de manière prévisible lorsque l'on augmente simultanément trois paramètres, la taille du modèle N, la quantité de données d'entraînement D, et la puissance de calcul C. Cette relation suit une courbe en loi de puissance, qui se traduit par une droite sur un graphe log-log. En d'autres termes, plus on investit en calcul, en données et en paramètres, plus le modèle s'améliore, et ce de façon quantifiable à l'avance.
L'enjeu pratique est considérable : ces lois permettent aux équipes de recherche d'allouer leur budget de calcul de façon optimale entre deux leviers, augmenter la taille du modèle ou augmenter le volume de données. Pour des entraînements qui coûtent des dizaines ou centaines de millions de dollars, la capacité à prédire les gains avant même de lancer un run est une information stratégique de premier ordre.
Ce cadre théorique a été formalisé par les chercheurs d'OpenAI autour de Jared Kaplan en 2020, puis significativement révisé par DeepMind avec le papier Chinchilla en 2022, qui démontrait que la plupart des grands modèles étaient sous-entraînés en données par rapport à leur taille. Aujourd'hui, alors que les entreprises approchent de limites physiques et économiques, la question centrale est de savoir si ces lois continueront de tenir, ou si l'ère du scaling pur touche à sa fin.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




