Aller au contenu principal
Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun
RechercheLatent Space6sem

Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun

Résumé IASource uniqueImpact UE
Source originale ↗·
Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun
▶ Voir sur YouTube

Moonlake AI, une startup cofondée par Chris Manning (professeur à Stanford et co-auteur de travaux fondateurs en NLP) et Fan-Yun Sun, propose une approche radicalement différente des modèles de monde actuels. Présentée notamment lors de la Game Developers Conference 2026, l'entreprise mise sur des modèles causaux, multimodaux et efficaces, capables de simuler des environnements interactifs avec de multiples joueurs simultanés, une durée de vie indéfinie et une physique cohérente. Moonlake vient de lancer une Creator Cup dotée de 30 000 dollars pour stimuler l'adoption de ses outils par la communauté de développeurs. L'approche repose sur le bootstrapping à partir de moteurs de jeu existants et l'entraînement d'agents personnalisés, permettant de simuler des environnements, prédire des résultats et planifier sur des horizons longs.

Là où des systèmes comme Genie 3 de Google souffrent de limitations significatives — clipping de terrain, absence d'interactivité réelle, immersion plafonnée à 60 secondes — Moonlake s'attaque à ces défauts structurels par une philosophie différente : la structure et la causalité plutôt que la mise à l'échelle aveugle. Comme le soulignent Manning, Sun et Ian Goodfellow dans leur article "Towards Efficient World Models", les modèles état-de-l'art présentent encore des incohérences physiques flagrantes — objets solides flottant dans les airs ou se traversant mutuellement. Leur argument central : pour planifier une action, une vue en haute résolution pixel par pixel est rarement nécessaire. Des représentations partielles combinées à une compréhension sémantique suffisent dans la quasi-totalité des cas, ce qui rend les architectures actuelles surdimensionnées et inefficaces pour la plupart des tâches à valeur économique réelle.

Ce projet s'inscrit dans une course intense autour des modèles de monde, où Nvidia, Waymo, Tesla et Google ont chacun publié leurs propres approches ces derniers mois. Yann LeCun a parallèlement levé 1 milliard de dollars pour AMI et publié LeWorldModel, témoignant de l'enjeu stratégique majeur que représente cette technologie pour l'IA incarnée et la robotique. Moonlake se distingue en choisissant les moteurs de jeu comme point de départ d'abstraction, jugeant qu'ils sont mieux adaptés que l'apprentissage pur pour extraire des relations causales fiables entre actions et observations. La présence de l'équipe au GDC 2026 et la diversité des mondes déjà construits par la communauté avec leurs outils suggèrent que cette approche suscite un intérêt concret bien au-delà du cercle académique.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Modèles du monde : 10 points clés sur l'IA en ce moment
1MIT Technology Review 

Modèles du monde : 10 points clés sur l'IA en ce moment

Les "world models" figurent parmi les dix tendances les plus importantes de l'intelligence artificielle selon le MIT Technology Review, qui leur consacre une place dans sa sélection éditoriale annuelle "10 Things That Matter in AI Right Now". La publication organise en parallèle une table ronde réservée aux abonnés intitulée "Can AI Learn to Understand the World?", animée par le rédacteur en chef Mat Honan, le senior editor Will Douglas Heaven et la journaliste spécialisée Grace Huckins. Les world models représentent une approche fondamentalement différente de l'IA actuelle : plutôt que de prédire des tokens de texte, ces systèmes cherchent à construire une représentation interne du monde physique, capable d'anticiper les conséquences d'actions dans des environnements réels. L'enjeu est considérable pour la robotique, les véhicules autonomes et tout système d'IA devant agir dans le monde réel plutôt que simplement répondre à des requêtes textuelles. Le sujet est étroitement lié aux travaux de Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une vision où les world models constitueraient la prochaine étape majeure au-delà des grands modèles de langage. Des applications concrètes commencent à émerger, comme l'utilisation des données de Pokémon Go pour doter des robots livreurs d'une cartographie centimètre par centimètre de l'environnement urbain. L'intérêt croissant de la presse spécialisée pour ce concept signale que le débat sur les limites des LLMs actuels s'intensifie dans les cercles de recherche.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
2arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source
La planification par gradient dans les modèles du monde sur des horizons prolongés
3Robohub 

La planification par gradient dans les modèles du monde sur des horizons prolongés

Des chercheurs de Meta AI, de l'Université de Californie Berkeley et du GRASP Lab ont publié un article présentant GRASP, un nouveau planificateur à base de gradients conçu pour les modèles de monde appris. L'équipe comprend Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun et Amir Bar. GRASP s'attaque à l'un des problèmes les plus persistants de l'IA incarnée : utiliser efficacement un modèle prédictif puissant pour planifier des séquences d'actions sur de longs horizons temporels. L'approche repose sur trois innovations clés : élever la trajectoire dans des états virtuels pour paralléliser l'optimisation dans le temps, introduire de la stochasticité directement dans les itérations d'état pour favoriser l'exploration, et reformuler les gradients afin que les actions reçoivent des signaux d'apprentissage clairs, tout en évitant les gradients instables qui traversent les modèles de vision haute dimension. Ce travail est important parce qu'il résout un goulot d'étranglement concret qui freine le déploiement des modèles de monde modernes dans des systèmes de contrôle réels. Un modèle de monde, dans ce contexte, est un simulateur différentiable appris : donné un état courant et une séquence d'actions futures, il prédit ce qui va se passer. En théorie, cela permettrait à un agent de planifier par optimisation, en faisant rouler le modèle en avant et en rétropropageant les erreurs. En pratique, sur de longs horizons, ce processus dégénère : les graphes de calcul deviennent mal conditionnés (problème d'explosion ou de disparition des gradients, analogue au backpropagation through time), des minima locaux apparaissent à cause de la structure non-greedy de la tâche, et les espaces latents de haute dimension introduisent des instabilités supplémentaires. GRASP contourne ces trois écueils simultanément, rendant la planification par gradient beaucoup plus robuste sans abandonner la différentiabilité du système. Les modèles de monde sont devenus un axe central de la recherche en IA depuis que Yann LeCun, directeur scientifique de Meta AI, a défendu leur rôle fondamental dans la quête d'une IA plus générale. Des systèmes comme DreamerV3 ou les modèles vidéo génératifs récents montrent que ces architectures peuvent désormais prédire de longues séquences d'observations dans des espaces visuels complexes et généraliser entre tâches. Mais posséder un simulateur puissant et s'en servir efficacement pour la prise de décision sont deux choses différentes. GRASP comble ce fossé en rendant la planification à long horizon viable là où elle échouait auparavant, ouvrant la voie à des agents robotiques ou autonomes capables de raisonner sur des séquences d'actions étendues dans des environnements réels.

RecherchePaper
1 source
Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes
4arXiv cs.RO 

Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes

Des chercheurs ont publié le 28 avril 2026 sur arXiv un framework capable d'estimer avec précision le coefficient de frottement entre deux matériaux quelconques, sans avoir à les tester directement l'un contre l'autre. Le système, baptisé proxy-based modeling framework, repose sur un petit ensemble fixe de matériaux de référence, appelés proxies. Pour chaque nouveau matériau A, le modèle mesure son frottement contre ces quelques proxies, puis construit un vecteur d'embedding compact qui représente les propriétés tribologiques du matériau. Une fonction de fusion combine ensuite les embeddings de deux matériaux A et B pour prédire leur frottement mutuel, sans avoir jamais eu besoin de les mettre en contact direct. L'enjeu pratique est considérable : tester exhaustivement toutes les paires possibles d'une bibliothèque de matériaux requiert un nombre d'expériences qui croît de façon quadratique, rendant rapidement le processus coûteux et inaccessible. Ce framework réduit drastiquement le nombre de mesures nécessaires tout en maintenant une haute précision prédictive, y compris lorsque certaines données proxy sont manquantes ou bruitées. Les embeddings appris sont interprétables et fournissent des estimations d'incertitude calibrées, ce qui les rend directement exploitables dans des pipelines de décision automatisée en robotique, en fabrication numérique ou en simulation physique. La friction entre matériaux reste l'un des paramètres les plus difficiles à modéliser dans les systèmes physiques, car elle dépend de combinaisons de propriétés de surface rarement capturées par des descripteurs simples. Les approches existantes exigent soit des mesures exhaustives, soit des hypothèses fortes sur la structure des matériaux. Ce travail s'inscrit dans une tendance plus large qui cherche à apporter des garanties probabilistes aux modèles de simulation physique utilisés en robotique et en conception assistée. Les auteurs valident leur méthode à la fois sur des datasets simulés et sur des mesures expérimentales réelles, ouvrant la voie à des bibliothèques de matériaux généralisables à grande échelle avec un effort expérimental minimal.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour