RechercheMarkTechPost6sem· 2 min de lecture

La tendance de la descente de gradient stochastique à privilégier les basses fréquences, et comment Adam y remédie

Lorsqu'un grand modèle de langage s'entraîne sur des textes réels, il rencontre un problème silencieux mais décisif : certains mots comme "the" apparaissent dans presque chaque phrase, tandis que des termes rares comme "thalweg" peuvent ne jamais apparaître dans des milliers de batchs successifs. Avec l'algorithme SGD (Stochastic Gradient Descent), chaque paramètre du réseau reçoit le même taux d'apprentissage fixe. Résultat : les paramètres associés aux tokens fréquents convergent rapidement vers leurs valeurs cibles, tandis que ceux liés aux tokens rares restent proches de leur initialisation aléatoire, faute de recevoir suffisamment de signal d'entraînement. Pour quantifier ce phénomène, des chercheurs ont construit une expérience contrôlée en NumPy avec un vocabulaire de six tokens dont les fréquences d'apparition varient sur quatre ordres de grandeur, allant de 95 % par batch pour "the" à seulement 0,1 % pour "thalweg". En entraînant le même modèle linéaire deux fois, une fois avec SGD et une fois avec Adam, sur 3 000 étapes avec un learning rate de 0,05 et des batchs de 32 échantillons, l'expérience rend visible ce biais de fréquence dans des conditions parfaitement isolées.

L'enjeu est considérable pour l'entraînement des modèles de langage modernes. Si SGD laisse les paramètres des tokens rares sous-optimisés, le modèle final sera systématiquement moins précis sur les concepts peu fréquents, précisément ceux qui sont souvent les plus spécialisés et les plus utiles. L'optimiseur Adam résout ce problème non pas principalement grâce au momentum qu'on lui attribue habituellement, mais grâce à la normalisation par la variance : il maintient pour chaque paramètre un historique de ses statistiques de gradient et ajuste dynamiquement la taille des mises à jour en fonction de la régularité du signal reçu. Un paramètre rarement mis à jour obtient automatiquement un taux d'apprentissage effectif plus élevé, ce qui lui permet de rattraper son retard. Dans l'expérience, tous les vrais poids cibles sont fixés à 1,0 pour tous les tokens, éliminant toute différence sémantique et révélant le pur effet de la fréquence sur la dynamique d'optimisation.

Ce travail éclaire pourquoi Adam est devenu l'optimiseur standard pour entraîner les LLMs, là où SGD reste courant pour la vision par ordinateur sur des distributions plus équilibrées. Le phénomène de biais de fréquence n'est pas anodin : dans un corpus de texte naturel, la distribution des tokens suit une loi de Puissance (loi de Zipf), ce qui signifie que l'écart entre tokens fréquents et rares est encore plus extrême que dans cette expérience. Des alternatives à Adam comme Adagrad et RMSProp partagent le même mécanisme d'adaptation, chacune avec ses propres compromis sur la mémoire et la vitesse de décroissance. Comprendre ce mécanisme fondamental permet aux praticiens de faire des choix d'optimiseur éclairés et d'interpréter les comportements d'entraînement plutôt que de les subir.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique

Les réseaux de neurones profonds peuvent être compris comme des systèmes géométriques : chaque couche transforme l'espace d'entrée pour construire des frontières de décision de plus en plus complexes. Une étude comparative récente explore comment deux fonctions d'activation fondamentales, Sigmoid et ReLU (Rectified Linear Unit), influencent cette géométrie interne et, par conséquent, l'efficacité des modèles lors de l'inférence. L'expérience repose sur un jeu de données synthétique classique, le "two-moons", généré avec scikit-learn : 400 points répartis en deux classes non linéairement séparables, avec un bruit de 0,18 pour simuler des conditions réalistes. Les deux architectures sont strictement identiques, même nombre de couches, même largeur, seule la fonction d'activation diffère, ce qui permet une comparaison propre et isolée. Le constat central est le suivant : Sigmoid compresse toutes les valeurs d'entrée dans un intervalle étroit entre 0 et 1. Conséquence directe, les points éloignés des frontières de décision deviennent indiscernables les uns des autres, car l'information sur leur distance à ces frontières est effacée couche après couche. Ce phénomène, appelé perte de contexte géométrique, affaiblit la capacité du réseau à construire des représentations riches en profondeur. ReLU, à l'inverse, conserve la magnitude des entrées positives : l'information de distance continue de circuler à travers les couches, permettant au réseau de rester expressif sans nécessiter une largeur excessive ni une puissance de calcul démesurée. En pratique, cela se traduit par des modèles ReLU plus efficaces à l'inférence et mieux adaptés au passage à l'échelle. Ces observations s'inscrivent dans une évolution plus large du domaine du deep learning. ReLU a progressivement remplacé Sigmoid comme fonction d'activation standard dans les réseaux profonds dès les années 2010, notamment grâce aux travaux fondateurs d'Hinton, LeCun et Bengio sur le problème de la disparition du gradient. Sigmoid souffrait en effet d'un double problème : saturation des gradients lors de la rétropropagation, et perte d'information géométrique lors de la propagation avant. L'étude actuelle met l'accent précisément sur ce second aspect, moins souvent discuté que le premier. Avec la montée en puissance des grands modèles de langage et des architectures à des centaines de milliards de paramètres, l'efficacité à l'inférence est devenue un enjeu industriel majeur. Des variantes de ReLU comme GELU ou SwiGLU, utilisées dans GPT-4 ou LLaMA, héritent de cette même propriété de préservation de l'information, confirmant que le choix de la fonction d'activation reste un levier critique pour la performance et l'économie de calcul des systèmes d'IA modernes.

RecherchePaper

1 source

2VentureBeat AI

Des chercheurs de Stanford présentent des agents IA 'scientifiques' en passe de transformer la découverte de médicaments

Une équipe de chercheurs de l'Université Stanford, dirigée par James Zou, professeur associé de sciences des données biomédicales, a déployé des milliers d'agents IA autonomes, des « scientifiques virtuels », au sein d'un laboratoire pharmaceutique simulé. Ces agents couvrent l'intégralité du cycle de développement d'un médicament, de la découverte initiale de molécules jusqu'à la conception des essais cliniques, en passant par les tests de sécurité. Le système repose sur une architecture hiérarchique : un agent « directeur scientifique » joue le rôle de planificateur et délègue les tâches à des équipes spécialisées. Ces agents accèdent à des bases de données massives, génomique, données chimiques de la FDA, registres d'essais cliniques, via un protocole de contexte de modèle (MCP). Le modèle Claude sert de colonne vertébrale pour le codage et l'analyse de données, aux côtés d'autres modèles spécialisés. Sur la base de ces travaux, Zou lève des fonds pour sa startup Human Intelligence à une valorisation d'environ un milliard de dollars. Cette approche s'attaque à l'un des problèmes les plus coûteux de la médecine moderne : entre 90 % et 95 % des projets de développement de médicaments échouent, et un seul médicament commercialisé peut nécessiter plus de douze ans de recherche et jusqu'à un milliard de dollars. L'un des facteurs structurels de cet échec est la perte de connaissance lors des transitions entre équipes spécialisées humaines, chaque transfert de projet entraîne une rupture de contexte. En maintenant l'intégralité de l'historique d'un projet au sein d'un écosystème unifié, les agents IA de Zou éliminent cette fragmentation, permettant une continuité de la première molécule identifiée jusqu'aux résultats cliniques finaux. La recherche pharmaceutique traverse une transformation profonde sous l'effet de l'IA générative, mais les approches précédentes restaient limitées à des tâches isolées. Le passage à des systèmes multi-agents autonomes capables de piloter un cycle complet de développement représente un saut qualitatif significatif. Zou présentera ses travaux lors de la conférence VB Transform le 15 juillet 2026, dans une session intitulée « Comment 10 000 scientifiques agentiques dans le laboratoire de Stanford s'apprêtent à révolutionner la recherche médicale ». Il y abordera des questions concrètes : gestion du contexte dans des workflows longs et multi-étapes, transformation des données d'entreprise en données exploitables par les agents, et rôle de l'audit humain pour vérifier les actions des agents. L'enjeu dépasse le seul secteur pharmaceutique, l'architecture développée à Stanford esquisse un modèle pour tout domaine où la complexité et la durée des projets dépassent les capacités de coordination humaine.

RecherchePaper

1 source

3Microsoft Research

ADeLe : prédire et expliquer les performances de l'IA selon les tâches

Des chercheurs de Microsoft, en collaboration avec l'Université de Princeton et l'Universitat Politècnica de València, ont publié dans la revue Nature une méthode inédite d'évaluation des modèles d'IA baptisée ADeLe — pour AI Evaluation with Demand Levels. Présentée dans l'article « General Scales Unlock AI Evaluation with Explanatory and Predictive Power », cette approche évalue simultanément les tâches et les modèles selon 18 capacités fondamentales — attention, raisonnement, connaissances de domaine, métacognition, entre autres — en leur attribuant un score de 0 à 5. Appliquée à 15 grands modèles de langage dont GPT-4o et Llama-3.1, la méthode permet de prédire les performances sur des tâches inédites avec une précision d'environ 88 %. Les travaux ont bénéficié du programme de financement AFMR (Accelerating Foundation Models Research) de Microsoft. L'apport concret d'ADeLe réside dans sa capacité à dépasser les scores agrégés des benchmarks classiques, qui mesurent ce qu'un modèle réussit sans expliquer pourquoi il échoue ni anticiper ses comportements sur de nouvelles tâches. En construisant un profil de capacités pour chaque modèle — une cartographie structurée de ses forces et faiblesses — et en le confrontant aux exigences précises d'une tâche donnée, ADeLe identifie les lacunes spécifiques à l'origine des erreurs. La méthode révèle également que de nombreux benchmarks largement utilisés donnent une image incomplète, voire trompeuse : un test censé mesurer le raisonnement logique peut en réalité dépendre fortement de connaissances spécialisées ou de métacognition, faussant ainsi l'interprétation des résultats. Pour les équipes qui développent ou déploient des LLMs, cette granularité change radicalement la façon d'interpréter une évaluation. L'évaluation des LLMs souffre depuis plusieurs années d'un problème structurel : les benchmarks standard comme MMLU ou HumanEval mesurent des performances globales sur des jeux de tests fixes, sans permettre de généraliser ni de diagnostiquer. ADeLe s'inscrit dans une tendance plus large de la communauté de recherche à vouloir rendre l'évaluation plus explicable et plus prédictive, à mesure que les modèles deviennent des composants critiques dans des systèmes professionnels. La publication dans Nature — une revue généraliste de premier rang, inhabituelle pour ce type de travaux en IA — signale l'ambition scientifique du projet. Les prochaines étapes pourraient inclure l'extension du cadre à des modalités au-delà du texte, et son adoption par des organismes d'évaluation indépendants cherchant des alternatives aux classements simplistes.

UELa co-participation de l'Universitat Politècnica de València positionne ADeLe comme candidat naturel pour les organismes d'évaluation européens chargés de mettre en œuvre les exigences de l'AI Act sur la transparence et la robustesse des modèles.

💬 Les benchmarks classiques te donnent un score global, mais zéro explication sur ce qui foire et pourquoi. ADeLe décompose ça en 18 capacités mesurables, confronte le profil du modèle aux exigences précises de la tâche, et prédit les perfs à 88% sur des cas inédits, ce qui est franchement solide pour de la recherche académique. Publication dans Nature en plus, c'est le genre de signal qui dit que l'évaluation des LLMs commence enfin à être traitée comme un vrai problème scientifique.

RecherchePaper

1 source

4Microsoft Research

SkillOpt : les compétences d'agents traitées comme des paramètres entraînables

Des chercheurs ont présenté SkillOpt, une nouvelle méthode qui transforme les compétences (skills) des agents d'intelligence artificielle en paramètres entraînables, sans modifier les poids du modèle sous-jacent. Concrètement, SkillOpt traite le fichier de compétences d'un agent, c'est-à-dire les instructions qui guident son comportement, comme une couche d'optimisation distincte, gérée par un modèle "optimiseur" séparé tandis que le modèle cible reste figé. Le système a été testé sur six benchmarks, sept modèles cibles différents et trois modes d'exécution, soit 52 combinaisons d'évaluation au total. Dans chacune de ces 52 cellules, SkillOpt s'est révélé être la meilleure méthode, ou ex aequo avec la meilleure, ce qui en fait l'approche la plus systématiquement performante testée à ce jour pour ce type d'optimisation. Le processus fonctionne par cycles successifs : le modèle cible exécute des tâches d'entraînement avec la compétence actuelle, un modèle optimiseur analyse ensuite les trajectoires obtenues pour repérer ce qui a fonctionné et ce qui a échoué, puis propose des modifications ciblées (ajouts, suppressions, remplacements) limitées par un budget d'édition strict, comparable à un taux d'apprentissage. Cette approche répond à un problème concret et de plus en plus pressant à mesure que les agents IA passent du prototype au déploiement en production : aujourd'hui, les compétences des agents sont écrites à la main par des experts, générées en une seule fois par un modèle de pointe, ou révisées de façon informelle après exécution. Aucune de ces méthodes ne dispose de garde-fous propres à l'apprentissage automatique, comme un contrôle de la taille des pas, une validation sur des données tenues à l'écart, ou une mémoire des révisions ayant échoué. Résultat : les fichiers de compétences ont tendance à s'allonger et à dériver au fil des réécritures, et une modification qui semble raisonnable peut en réalité dégrader silencieusement les performances réelles de l'agent, ce qui mine la fiabilité nécessaire à un usage professionnel. Pour éviter cette dérive incontrôlée, chaque modification candidate doit passer une validation stricte : elle n'est adoptée que si elle obtient un score strictement supérieur à la version actuelle sur un jeu de validation séparé. Les modifications rejetées ne sont pas perdues pour autant : elles alimentent une mémoire d'échecs qui sert de retour négatif pour guider les prochaines propositions. Un mécanisme de mise à jour plus lent, à l'échelle de l'epoch, consolide par ailleurs des enseignements de plus long terme que des lots de données isolés ne peuvent révéler. Les compétences ainsi optimisées se sont montrées transférables entre différentes tailles de modèles, différents environnements d'exécution d'agents et des tâches connexes, ce qui suggère qu'elles capturent un savoir-faire réutilisable plutôt que des instructions ajustées à un seul benchmark.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic