RechercheLatent Space14sem· 2 min de lecture

Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun

Moonlake AI, une startup cofondée par Chris Manning (professeur à Stanford et co-auteur de travaux fondateurs en NLP) et Fan-Yun Sun, propose une approche radicalement différente des modèles de monde actuels. Présentée notamment lors de la Game Developers Conference 2026, l'entreprise mise sur des modèles causaux, multimodaux et efficaces, capables de simuler des environnements interactifs avec de multiples joueurs simultanés, une durée de vie indéfinie et une physique cohérente. Moonlake vient de lancer une Creator Cup dotée de 30 000 dollars pour stimuler l'adoption de ses outils par la communauté de développeurs. L'approche repose sur le bootstrapping à partir de moteurs de jeu existants et l'entraînement d'agents personnalisés, permettant de simuler des environnements, prédire des résultats et planifier sur des horizons longs.

Là où des systèmes comme Genie 3 de Google souffrent de limitations significatives — clipping de terrain, absence d'interactivité réelle, immersion plafonnée à 60 secondes — Moonlake s'attaque à ces défauts structurels par une philosophie différente : la structure et la causalité plutôt que la mise à l'échelle aveugle. Comme le soulignent Manning, Sun et Ian Goodfellow dans leur article "Towards Efficient World Models", les modèles état-de-l'art présentent encore des incohérences physiques flagrantes — objets solides flottant dans les airs ou se traversant mutuellement. Leur argument central : pour planifier une action, une vue en haute résolution pixel par pixel est rarement nécessaire. Des représentations partielles combinées à une compréhension sémantique suffisent dans la quasi-totalité des cas, ce qui rend les architectures actuelles surdimensionnées et inefficaces pour la plupart des tâches à valeur économique réelle.

Ce projet s'inscrit dans une course intense autour des modèles de monde, où Nvidia, Waymo, Tesla et Google ont chacun publié leurs propres approches ces derniers mois. Yann LeCun a parallèlement levé 1 milliard de dollars pour AMI et publié LeWorldModel, témoignant de l'enjeu stratégique majeur que représente cette technologie pour l'IA incarnée et la robotique. Moonlake se distingue en choisissant les moteurs de jeu comme point de départ d'abstraction, jugeant qu'ils sont mieux adaptés que l'apprentissage pur pour extraire des relations causales fiables entre actions et observations. La présence de l'équipe au GDC 2026 et la diversité des mondes déjà construits par la communauté avec leurs outils suggèrent que cette approche suscite un intérêt concret bien au-delà du cercle académique.

Dans nos dossiers

NVIDIA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MIT Technology Review

Modèles du monde : 10 points clés sur l'IA en ce moment

Les "world models" figurent parmi les dix tendances les plus importantes de l'intelligence artificielle selon le MIT Technology Review, qui leur consacre une place dans sa sélection éditoriale annuelle "10 Things That Matter in AI Right Now". La publication organise en parallèle une table ronde réservée aux abonnés intitulée "Can AI Learn to Understand the World?", animée par le rédacteur en chef Mat Honan, le senior editor Will Douglas Heaven et la journaliste spécialisée Grace Huckins. Les world models représentent une approche fondamentalement différente de l'IA actuelle : plutôt que de prédire des tokens de texte, ces systèmes cherchent à construire une représentation interne du monde physique, capable d'anticiper les conséquences d'actions dans des environnements réels. L'enjeu est considérable pour la robotique, les véhicules autonomes et tout système d'IA devant agir dans le monde réel plutôt que simplement répondre à des requêtes textuelles. Le sujet est étroitement lié aux travaux de Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une vision où les world models constitueraient la prochaine étape majeure au-delà des grands modèles de langage. Des applications concrètes commencent à émerger, comme l'utilisation des données de Pokémon Go pour doter des robots livreurs d'une cartographie centimètre par centimètre de l'environnement urbain. L'intérêt croissant de la presse spécialisée pour ce concept signale que le débat sur les limites des LLMs actuels s'intensifie dans les cercles de recherche.

RecherchePaper

1 source

2arXiv cs.RO

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper

1 source

3MarkTechPost

LingBot-World-Infinity : un modèle causal du monde ouvert doté d'un harnais d'agents

Robbyant, l'unité d'intelligence incarnée d'Ant Group, a dévoilé LingBot-World-Infinity, aussi appelé LingBot-World 2.0, un modèle causal de génération vidéo qui fonctionne comme un simulateur de monde interactif. Le système génère l'image image par image, chaque état ne dépendant que des images passées et de l'action en cours, une action qui combine une pose de caméra encodée via des embeddings de Plücker et un prompt textuel injecté par attention croisée. Le modèle principal compte 14 milliards de paramètres, avec une variante allégée de 1,3 milliard déployable sur un seul GPU. L'équipe revendique quatre avancées par rapport à la version précédente : un horizon d'interaction illimité sans perte de qualité, une variante distillée capable de générer un flux vidéo en 720p à 60 images par seconde en temps réel, un espace d'actions élargi incluant l'attaque au corps à corps, le tir à l'arc, les sorts magiques et le tir à distance, ainsi qu'un dispositif agentique associant un agent pilote et un agent directeur. Le cœur technique repose sur un masque d'attention baptisé MoBA, pour Mixture of Bidirectional and Autoregressive Attention. Il corrige un défaut classique de l'entraînement autorégressif par teacher forcing, où le modèle finit par s'appuyer excessivement sur le contexte passé plutôt que d'apprendre à prédire l'avenir, ce qui dégrade la qualité visuelle à mesure que le contexte s'allonge. MoBA ajoute un bloc d'attention bidirectionnelle qui agit comme régularisateur et facilite la génération à longueur variable. L'entraînement se déroule en deux temps : un pré-entraînement par flow matching conditionnel avec interpolation de flux rectifié, puis une distillation qui compresse le modèle enseignant en un modèle étudiant à quelques étapes, via distillation par cohérence et par appariement de distributions. Ce dernier procédé est appliqué non seulement aux séquences guidées par l'enseignant mais aussi aux longues trajectoires générées par le modèle lui-même, ce qui expliquerait sa résistance à la dérive sur le long terme. Cette robustesse temporelle est cruciale pour les usages visés : simulation d'environnements pour l'entraînement de robots ou d'agents incarnés, où une dérive progressive du monde généré rendrait l'apprentissage inutilisable. Le dispositif agentique illustre cet enjeu : un modèle vision-langage joue le rôle de directeur, gérant la cohérence sémantique globale, pendant qu'un transformeur de diffusion pilote simule la physique locale. Deux modes d'interaction existent, l'un purement sémantique via des cartes d'événements sans masques d'objets, l'autre assisté par suivi d'objets avec Segment Anything Model, permettant aux utilisateurs de sélectionner un objet suivi pour déclencher une action, de modifier l'heure ou la météo, ou de faire apparaître de nouvelles entités dans la scène.

RechercheActu

1 source

4Robohub

La planification par gradient dans les modèles du monde sur des horizons prolongés

Des chercheurs de Meta AI, de l'Université de Californie Berkeley et du GRASP Lab ont publié un article présentant GRASP, un nouveau planificateur à base de gradients conçu pour les modèles de monde appris. L'équipe comprend Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun et Amir Bar. GRASP s'attaque à l'un des problèmes les plus persistants de l'IA incarnée : utiliser efficacement un modèle prédictif puissant pour planifier des séquences d'actions sur de longs horizons temporels. L'approche repose sur trois innovations clés : élever la trajectoire dans des états virtuels pour paralléliser l'optimisation dans le temps, introduire de la stochasticité directement dans les itérations d'état pour favoriser l'exploration, et reformuler les gradients afin que les actions reçoivent des signaux d'apprentissage clairs, tout en évitant les gradients instables qui traversent les modèles de vision haute dimension. Ce travail est important parce qu'il résout un goulot d'étranglement concret qui freine le déploiement des modèles de monde modernes dans des systèmes de contrôle réels. Un modèle de monde, dans ce contexte, est un simulateur différentiable appris : donné un état courant et une séquence d'actions futures, il prédit ce qui va se passer. En théorie, cela permettrait à un agent de planifier par optimisation, en faisant rouler le modèle en avant et en rétropropageant les erreurs. En pratique, sur de longs horizons, ce processus dégénère : les graphes de calcul deviennent mal conditionnés (problème d'explosion ou de disparition des gradients, analogue au backpropagation through time), des minima locaux apparaissent à cause de la structure non-greedy de la tâche, et les espaces latents de haute dimension introduisent des instabilités supplémentaires. GRASP contourne ces trois écueils simultanément, rendant la planification par gradient beaucoup plus robuste sans abandonner la différentiabilité du système. Les modèles de monde sont devenus un axe central de la recherche en IA depuis que Yann LeCun, directeur scientifique de Meta AI, a défendu leur rôle fondamental dans la quête d'une IA plus générale. Des systèmes comme DreamerV3 ou les modèles vidéo génératifs récents montrent que ces architectures peuvent désormais prédire de longues séquences d'observations dans des espaces visuels complexes et généraliser entre tâches. Mais posséder un simulateur puissant et s'en servir efficacement pour la prise de décision sont deux choses différentes. GRASP comble ce fossé en rendant la planification à long horizon viable là où elle échouait auparavant, ouvrant la voie à des agents robotiques ou autonomes capables de raisonner sur des séquences d'actions étendues dans des environnements réels.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic