
Le nouveau projet de recherche LeWorldModel (LeWM) de Yann LeCun cible l'effondrement JEPA dans la modélisation prédictive du monde par pixels
Yann LeCun et une équipe de chercheurs issus du Mila, de l'Université de Montréal, de la New York University, de Samsung SAIL et de la Brown University viennent de présenter LeWorldModel (LeWM), une architecture de modélisation du monde capable de s'entraîner de bout en bout directement à partir de pixels bruts — sans les béquilles techniques qui handicapent les approches actuelles.
Le problème que résout LeWM est fondamental pour l'IA incarnée : les modèles du monde entraînés sur des images pixel par pixel souffrent d'un phénomène dit d'effondrement de représentation, où le modèle apprend à produire des embeddings redondants pour satisfaire trivialement ses objectifs de prédiction, sans rien comprendre du monde réel. Les solutions existantes contournent ce problème avec des heuristiques complexes — mises à jour stop-gradient, moyennes mobiles exponentielles (EMA), encodeurs pré-entraînés gelés — qui introduisent de la fragilité et limitent la flexibilité d'entraînement.
LeWM est la première architecture JEPA (Joint-Embedding Predictive Architecture) à résoudre ce problème avec seulement deux termes de perte : une perte de prédiction d'embedding suivant et un régulariseur SIGReg (Sketched-Isotropic-Gaussian Regularizer) qui force la diversité des représentations latentes. L'architecture repose sur un encodeur ViT-Tiny (~5M paramètres) et un prédicteur transformer (~10M paramètres). Le gain d'efficacité est spectaculaire : LeWM encode les observations avec 200× moins de tokens que DINO-WM, et atteint une vitesse de planification 48× supérieure (0,98 s contre 47 s par cycle). La recherche de l'hyperparamètre clé λ passe d'une complexité polynomiale O(n⁶) à une recherche par bissection O(log n).
Au-delà des performances brutes, LeWM développe une compréhension émergente de la physique : son espace latent permet de détecter des événements physiquement impossibles (téléportation) et présente un phénomène de redressement temporel des trajectoires latentes — sans qu'aucun régulariseur explicite ne l'impose — surpassant sur ce point PLDM qui, lui, ne l'obtient pas naturellement. Ces propriétés émergentes suggèrent que LeWM construit une représentation interne du monde plus structurée que ses prédécesseurs, une piste directement alignée avec la vision de LeCun sur les agents capables de raisonnement causal.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




