Aller au contenu principal
Le nouveau projet de recherche LeWorldModel (LeWM) de Yann LeCun cible l'effondrement JEPA dans la modélisation prédictive du monde par pixels
RechercheMarkTechPost6sem

Le nouveau projet de recherche LeWorldModel (LeWM) de Yann LeCun cible l'effondrement JEPA dans la modélisation prédictive du monde par pixels

Résumé IASource uniqueImpact UE
Source originale ↗·

Yann LeCun et une équipe de chercheurs issus du Mila, de l'Université de Montréal, de la New York University, de Samsung SAIL et de la Brown University viennent de présenter LeWorldModel (LeWM), une architecture de modélisation du monde capable de s'entraîner de bout en bout directement à partir de pixels bruts — sans les béquilles techniques qui handicapent les approches actuelles.

Le problème que résout LeWM est fondamental pour l'IA incarnée : les modèles du monde entraînés sur des images pixel par pixel souffrent d'un phénomène dit d'effondrement de représentation, où le modèle apprend à produire des embeddings redondants pour satisfaire trivialement ses objectifs de prédiction, sans rien comprendre du monde réel. Les solutions existantes contournent ce problème avec des heuristiques complexes — mises à jour stop-gradient, moyennes mobiles exponentielles (EMA), encodeurs pré-entraînés gelés — qui introduisent de la fragilité et limitent la flexibilité d'entraînement.

LeWM est la première architecture JEPA (Joint-Embedding Predictive Architecture) à résoudre ce problème avec seulement deux termes de perte : une perte de prédiction d'embedding suivant et un régulariseur SIGReg (Sketched-Isotropic-Gaussian Regularizer) qui force la diversité des représentations latentes. L'architecture repose sur un encodeur ViT-Tiny (~5M paramètres) et un prédicteur transformer (~10M paramètres). Le gain d'efficacité est spectaculaire : LeWM encode les observations avec 200× moins de tokens que DINO-WM, et atteint une vitesse de planification 48× supérieure (0,98 s contre 47 s par cycle). La recherche de l'hyperparamètre clé λ passe d'une complexité polynomiale O(n⁶) à une recherche par bissection O(log n).

Au-delà des performances brutes, LeWM développe une compréhension émergente de la physique : son espace latent permet de détecter des événements physiquement impossibles (téléportation) et présente un phénomène de redressement temporel des trajectoires latentes — sans qu'aucun régulariseur explicite ne l'impose — surpassant sur ce point PLDM qui, lui, ne l'obtient pas naturellement. Ces propriétés émergentes suggèrent que LeWM construit une représentation interne du monde plus structurée que ses prédécesseurs, une piste directement alignée avec la vision de LeCun sur les agents capables de raisonnement causal.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
1Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
2arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel
3Numerama 

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Yann LeCun, directeur scientifique de Meta AI et figure centrale de l'intelligence artificielle moderne, publie avec un consortium de chercheurs LeWorldModel, un modèle de prédiction du monde capable de s'entraîner directement à partir de pixels bruts — sans prétraitement ni encodage intermédiaire — tout en maintenant une stabilité d'entraînement inédite à cette échelle. Le modèle repose sur 15 millions de paramètres et tourne sur un seul GPU, ce qui le rend accessible bien au-delà des grands laboratoires disposant de clusters massifs. L'enjeu est considérable pour la robotique et l'IA incarnée : pour qu'un robot puisse interagir de façon autonome avec son environnement physique, il doit d'abord modéliser le monde visuel tel qu'il est, image après image, sans dépendre d'annotations humaines. LeWorldModel ouvre cette voie en apprenant directement depuis la donnée visuelle brute, là où les approches précédentes échouaient souvent à converger ou nécessitaient des architectures beaucoup plus lourdes. C'est un pas concret vers une IA qui « comprend » le monde réel plutôt que de simplement le classifier. Cette publication intervient dans un contexte particulier : LeCun vient de cofonder AMI Labs, une startup basée en France dont les premiers travaux ne sont pas encore dévoilés. Depuis plusieurs années, il défend publiquement une vision alternative aux grands modèles de langage — il milite pour des systèmes d'IA basés sur la prédiction du monde physique plutôt que sur la génération de texte. LeWorldModel s'inscrit directement dans cette feuille de route, et pourrait constituer une brique fondamentale de l'architecture JEPA (Joint Embedding Predictive Architecture) qu'il développe chez Meta depuis 2022.

UELa cofondation par LeCun d'AMI Labs, startup basée en France, ancre directement ces travaux dans l'écosystème français de l'IA et pourrait constituer un pôle de recherche européen sur l'IA incarnée.

RecherchePaper
1 source
Yann LeCun lance AMI Labs et lève 1,03 milliard pour créer des modèles du monde
4Le Big Data 

Yann LeCun lance AMI Labs et lève 1,03 milliard pour créer des modèles du monde

Yann LeCun a cofondé AMI Labs, qui vient de lever 1,03 milliard de dollars pour une valorisation pré-monétaire de 3,5 milliards, avec le soutien de Nvidia, Samsung, Toyota Ventures et Temasek. L'entreprise vise à développer des "modèles du monde" basés sur l'architecture JEPA (Joint Embedding Predictive Architecture), une alternative aux LLMs capables d'apprendre directement de la réalité plutôt que du texte. Sans objectif de revenus à court terme, AMI Labs adoptera une approche de recherche fondamentale sur plusieurs années, avec Nabla comme premier partenaire de test.

UELa startup française Nabla, choisie comme premier partenaire de test d'AMI Labs, bénéficie d'un accès privilégié aux travaux pionniers du chercheur français Yann LeCun sur les modèles du monde, renforçant potentiellement sa position dans l'IA médicale européenne.

RechercheActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour