Aller au contenu principal
Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
RechercheApple Machine Learning20h

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

1 source couvre ce sujet·Source originale ↗·

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement.

Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille.

Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

À lire aussi

1Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
2Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
3Numerama 

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Yann LeCun, directeur scientifique de Meta AI et figure emblématique de l'apprentissage profond, vient de co-publier LeWorldModel, un modèle de 15 millions de paramètres capable de s'entraîner directement à partir de pixels bruts sur un seul GPU, sans instabilité d'entraînement. Ce travail, fruit d'une collaboration avec un consortium de chercheurs en IA, représente une première démonstration concrète de la vision de LeCun pour une IA capable de comprendre le monde physique. L'annonce intervient en parallèle du lancement d'AMI Labs, sa nouvelle startup fondée en France, dont les premières recherches n'ont pas encore été rendues publiques. La capacité à apprendre depuis des pixels bruts sans instabilité est un verrou technique majeur : la plupart des modèles existants nécessitent des données prétraitées ou des architectures complexes pour rester stables durant l'entraînement. Avec 15 millions de paramètres seulement — soit une fraction infime des grands modèles de langage — LeWorldModel ouvre la voie à des systèmes embarquables dans des robots ou des appareils à ressources limitées, capables de percevoir et d'anticiper leur environnement physique en temps réel. Ce développement s'inscrit dans la longue campagne de LeCun contre les grands modèles de langage, qu'il juge insuffisants pour atteindre une intelligence générale. Depuis plusieurs années, il défend l'architecture JEPA (Joint Embedding Predictive Architecture), centrée sur la prédiction dans un espace de représentations plutôt que sur la génération de tokens. LeWorldModel constitue une preuve de concept partielle de cette approche. Avec AMI Labs désormais opérationnel en France, LeCun entend accélérer cette recherche vers des IA capables d'agir dans le monde réel — un chantier qui pourrait redéfinir la robotique et l'IA incarnée dans les prochaines années.

UEAMI Labs, la startup de LeCun fondée en France, ancre directement cette recherche sur l'IA incarnée sur le territoire français, avec des retombées potentielles pour l'écosystème robotique et IA européen.

RecherchePaper
1 source
4TechCrunch AI 

Décan AI, rivale de Mercor, obtient 25 millions de dollars en financement et recrute des experts en provenance d'Inde

Paragraphe 1: Le 28 avril dernier, Deccan AI, un concurrent de Mercor, a annoncé une levée de fonds de 25 millions de dollars pour renforcer sa présence en Inde. Cette entreprise s'est spécialisée dans l'embauche de professionnels locaux pour gérer la qualité dans un marché naissant et dispersé d'entraînement en intelligence artificielle (IA). Paragraphe 2: Cette initiative est cruciale car elle permet à Deccan AI de tirer parti des compétences pointues en IA de l'Inde, un pays qui a rapidement gagné en réputation dans ce domaine. En concentrant ses ressources humaines localisées, Deccan vise à se démarquer dans un marché fragmenté où la qualité et l'efficacité sont essentielles pour attirer des clients. Cette stratégie pourrait non seulement renforcer sa position concurrentielle face à Mercor, mais aussi contribuer au leadership global de l'Inde dans l'industrie de l'IA. Paragraphe 3: Ce mouvement se produit alors que l'intérêt mondial pour les solutions d'IA continue de croître, avec un accent particulier sur la qualité et l'efficacité des systèmes d'apprentissage automatique. En s'appuyant sur le talent local, Deccan AI cherche à répondre efficacement à cette demande croissante tout en renforçant sa propre capacité innovante dans un secteur de plus en plus compétitif.

RechercheReglementation
1 source