Aller au contenu principal
RechercheLilian Weng2j· 1 min de lecture

Les lois d'échelle, examinées avec rigueur

Source originale ↗·

Les lois d'échelle (scaling laws) constituent l'une des découvertes empiriques les plus déterminantes de l'apprentissage profond moderne. Le principe est d'une élégante simplicité : la perte d'entraînement L d'un modèle diminue de manière prévisible lorsque l'on augmente simultanément trois paramètres, la taille du modèle N, la quantité de données d'entraînement D, et la puissance de calcul C. Cette relation suit une courbe en loi de puissance, qui se traduit par une droite sur un graphe log-log. En d'autres termes, plus on investit en calcul, en données et en paramètres, plus le modèle s'améliore, et ce de façon quantifiable à l'avance.

L'enjeu pratique est considérable : ces lois permettent aux équipes de recherche d'allouer leur budget de calcul de façon optimale entre deux leviers, augmenter la taille du modèle ou augmenter le volume de données. Pour des entraînements qui coûtent des dizaines ou centaines de millions de dollars, la capacité à prédire les gains avant même de lancer un run est une information stratégique de premier ordre.

Ce cadre théorique a été formalisé par les chercheurs d'OpenAI autour de Jared Kaplan en 2020, puis significativement révisé par DeepMind avec le papier Chinchilla en 2022, qui démontrait que la plupart des grands modèles étaient sous-entraînés en données par rapport à leur taille. Aujourd'hui, alors que les entreprises approchent de limites physiques et économiques, la question centrale est de savoir si ces lois continueront de tenir, ou si l'ère du scaling pur touche à sa fin.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
1Apple Machine Learning 

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper
1 source
ParaRNN : RNNs non linéaires à grande échelle, entraînables en parallèle
2Apple Machine Learning 

ParaRNN : RNNs non linéaires à grande échelle, entraînables en parallèle

Des chercheurs d'Apple ont publié ParaRNN, une méthode qui permet d'entraîner en parallèle des réseaux de neurones récurrents (RNN) non linéaires à grande échelle. Historiquement, les RNN se heurtaient à un obstacle fondamental : leur calcul séquentiel rendait impossible de les entraîner efficacement sur des milliards de paramètres, contrairement aux architectures basées sur l'attention comme les Transformers. ParaRNN contourne cette limitation en débloquant la parallélisation de l'entraînement, ouvrant pour la première fois la voie à des RNN comparables en taille aux grands modèles de langage actuels. L'enjeu est considérable pour l'industrie de l'IA. Les RNN ont un avantage majeur à l'inférence : ils consomment beaucoup moins de mémoire et de calcul que les Transformers, ce qui les rend particulièrement attractifs pour les déploiements sur appareils contraints, smartphones, wearables, systèmes embarqués. Jusqu'ici, cette efficacité à l'inférence était contrebalancée par l'impossibilité de les entraîner à l'échelle. ParaRNN change cette équation et élargit concrètement le choix d'architectures disponibles aux praticiens qui conçoivent des LLM pour des environnements à ressources limitées. Ce travail s'inscrit dans un effort plus large de l'industrie pour trouver des alternatives aux Transformers, dont les coûts computationnels explosent avec la taille. Des architectures comme Mamba, RWKV ou les modèles d'état linéaires (SSM) ont déjà relancé l'intérêt pour les approches séquentielles. Qu'Apple s'engage sur ce terrain avec une contribution de recherche fondamentale signale un intérêt stratégique évident pour des modèles embarqués performants, en cohérence avec son positionnement autour de l'IA on-device dans ses produits.

RecherchePaper
1 source
Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision
3VentureBeat AI 

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Des chercheurs d'Alibaba ont publié un cadre d'apprentissage par renforcement appelé HDPO (Hierarchical Decoupled Policy Optimization), conçu pour entraîner des agents IA à mieux décider quand utiliser des outils externes et quand s'appuyer sur leurs propres connaissances. Appliqué à leur modèle multimodal Metis, ce framework réduit les appels d'outils redondants de 98 % à seulement 2 %, tout en améliorant la précision sur les benchmarks de référence du secteur. L'enjeu est concret : les agents IA actuels ont tendance à invoquer systématiquement des utilitaires externes comme la recherche web ou l'exécution de code, même lorsque la question posée ne le nécessite pas. Chaque appel inutile crée un goulet d'étranglement de traitement séquentiel, alourdit les coûts d'API et injecte du bruit dans le contexte du modèle, ce qui dégrade la qualité du raisonnement final. Ce problème touche directement les entreprises qui déploient des agents IA en production : des systèmes techniquement capables deviennent lents et coûteux à opérer, sans que cela se traduise par de meilleures réponses. Les approches précédentes tentaient de corriger ce comportement en combinant précision et efficacité dans un seul signal de récompense, mais cette conception créait un dilemme d'optimisation insoluble. Une pénalité trop forte sur l'usage des outils rend le modèle trop conservateur et nuit à sa précision sur les tâches complexes, tandis qu'une pénalité trop faible ne change rien au comportement. Pire, ce signal mélangé crée une ambiguïté sémantique : une réponse incorrecte sans aucun appel d'outil pouvait obtenir la même récompense qu'une réponse correcte avec un usage excessif. HDPO résout ce paradoxe en séparant les deux objectifs dans des canaux d'optimisation indépendants. Le canal de précision maximise la justesse des réponses sur l'ensemble des rollouts, tandis que le canal d'efficacité minimise les appels superflus. Les deux signaux ne sont combinés qu'à la dernière étape du calcul de la perte, et surtout, l'efficacité reste conditionnelle à la précision : une réponse incorrecte n'est jamais récompensée simplement parce qu'elle a été rapide ou économe en appels. Cette décorrélation offre au modèle des gradients d'apprentissage propres pour chaque objectif, sans interférence. Alibaba s'inscrit dans une course intense au développement d'agents IA fiables et économiques, où la maîtrise du coût opérationnel est devenue aussi stratégique que la performance brute. HDPO représente une avancée méthodologique qui pourrait influencer la façon dont l'ensemble de l'industrie entraîne ses agents à instrumenter le monde extérieur avec discernement plutôt qu'automatisme.

RecherchePaper
1 source
Import AI 447 : l'économie de l'AGI, tester les IA avec des jeux générés et les écosystèmes d'agents
4Import AI 

Import AI 447 : l'économie de l'AGI, tester les IA avec des jeux générés et les écosystèmes d'agents

Des chercheurs des universités MIT, WashU et UCLA ont publié une étude intitulée "Some Simple Economics of AGI", qui modélise ce que deviendrait une économie où les machines sont capables d'accomplir la grande majorité des tâches humaines. Leur cadre d'analyse repose sur deux courbes en collision : le coût de l'automatisation, qui chute exponentiellement, et le coût de la vérification humaine, biologiquement limité. Leur conclusion centrale est que dans une économie dominée par des agents autonomes, la ressource rare n'est plus l'intelligence — c'est la capacité humaine à valider, auditer et cautionner les résultats produits par ces agents. Les humains se retrouveraient ainsi recentrés sur deux types de tâches : la supervision des systèmes d'IA, et les activités artisanales dont la valeur tient précisément à leur origine humaine. Le risque principal identifié par les auteurs est ce qu'ils appellent l'"Économie Creuse" : un régime où les agents IA consomment des ressources réelles pour produire des résultats qui satisfont des métriques mesurables tout en trahissant l'intention humaine réelle. Cette "dette cachée" s'accumule silencieusement — l'activité nominale monte, mais l'utilité effective s'effondre. Les auteurs parlent d'un effet "Cheval de Troie" : plus on délègue aux machines sans investir dans la vérification, plus on risque de construire une économie à haute production apparente mais à valeur réelle en décomposition. Ce scénario n'est pas théorique : il découle directement de la prolifération incontrôlée d'agents autonomes sans mécanismes robustes de contrôle et de responsabilité. Pour éviter ce scénario, les chercheurs formulent plusieurs recommandations concrètes. Il faut d'abord investir massivement dans l'observabilité — des outils capables de compresser les comportements complexes des agents en signaux interprétables par des experts humains. Il faut aussi repenser la formation des jeunes professionnels : face à la réduction probable des postes juniors, l'IA devrait être utilisée pour créer des environnements d'entraînement synthétiques à haut niveau de fidélité, remplaçant les filières d'apprentissage traditionnelles par des simulations personnalisées et accélérées. Enfin, les auteurs insistent sur la nécessité de concevoir des systèmes capables de "dégrader gracieusement" — c'est-à-dire de fonctionner de manière acceptable même lorsque la supervision humaine est dépassée — via l'alignement de base des modèles, des régimes de responsabilité légale internalisantles risques extrêmes, et une provenance cryptographique des actions produites. L'enjeu, résument-ils, est de s'assurer que "l'humanité reste l'architecte de son intelligence", ce qui exige que la capacité de vérification croisse au même rythme que les capacités de l'IA.

UELes recommandations sur l'observabilité des agents et la supervision humaine obligatoire résonnent directement avec les exigences de l'AI Act européen sur les systèmes à haut risque.

RechercheOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic