
La tendance de la descente de gradient stochastique à privilégier les basses fréquences, et comment Adam y remédie
Lorsqu'un grand modèle de langage s'entraîne sur des textes réels, il rencontre un problème silencieux mais décisif : certains mots comme "the" apparaissent dans presque chaque phrase, tandis que des termes rares comme "thalweg" peuvent ne jamais apparaître dans des milliers de batchs successifs. Avec l'algorithme SGD (Stochastic Gradient Descent), chaque paramètre du réseau reçoit le même taux d'apprentissage fixe. Résultat : les paramètres associés aux tokens fréquents convergent rapidement vers leurs valeurs cibles, tandis que ceux liés aux tokens rares restent proches de leur initialisation aléatoire, faute de recevoir suffisamment de signal d'entraînement. Pour quantifier ce phénomène, des chercheurs ont construit une expérience contrôlée en NumPy avec un vocabulaire de six tokens dont les fréquences d'apparition varient sur quatre ordres de grandeur, allant de 95 % par batch pour "the" à seulement 0,1 % pour "thalweg". En entraînant le même modèle linéaire deux fois, une fois avec SGD et une fois avec Adam, sur 3 000 étapes avec un learning rate de 0,05 et des batchs de 32 échantillons, l'expérience rend visible ce biais de fréquence dans des conditions parfaitement isolées.
L'enjeu est considérable pour l'entraînement des modèles de langage modernes. Si SGD laisse les paramètres des tokens rares sous-optimisés, le modèle final sera systématiquement moins précis sur les concepts peu fréquents, précisément ceux qui sont souvent les plus spécialisés et les plus utiles. L'optimiseur Adam résout ce problème non pas principalement grâce au momentum qu'on lui attribue habituellement, mais grâce à la normalisation par la variance : il maintient pour chaque paramètre un historique de ses statistiques de gradient et ajuste dynamiquement la taille des mises à jour en fonction de la régularité du signal reçu. Un paramètre rarement mis à jour obtient automatiquement un taux d'apprentissage effectif plus élevé, ce qui lui permet de rattraper son retard. Dans l'expérience, tous les vrais poids cibles sont fixés à 1,0 pour tous les tokens, éliminant toute différence sémantique et révélant le pur effet de la fréquence sur la dynamique d'optimisation.
Ce travail éclaire pourquoi Adam est devenu l'optimiseur standard pour entraîner les LLMs, là où SGD reste courant pour la vision par ordinateur sur des distributions plus équilibrées. Le phénomène de biais de fréquence n'est pas anodin : dans un corpus de texte naturel, la distribution des tokens suit une loi de Puissance (loi de Zipf), ce qui signifie que l'écart entre tokens fréquents et rares est encore plus extrême que dans cette expérience. Des alternatives à Adam comme Adagrad et RMSProp partagent le même mécanisme d'adaptation, chacune avec ses propres compromis sur la mémoire et la vitesse de décroissance. Comprendre ce mécanisme fondamental permet aux praticiens de faire des choix d'optimiseur éclairés et d'interpréter les comportements d'entraînement plutôt que de les subir.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




