Aller au contenu principal
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
RechercheNext INpact12sem· 1 min de lecture

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Source originale ↗·

Yann LeCun et son équipe d'AMI Labs viennent de dévoiler LeWorldModel (LeWM), leur premier modèle d'intelligence artificielle capable d'apprendre à partir du monde réel — images et vidéos — plutôt que du langage textuel. Ce « world model » représente une rupture philosophique et technique avec les grands modèles de langage (LLM) qui dominent aujourd'hui le paysage de l'IA générative.

L'enjeu est de taille : les LLM actuels consomment des ressources de calcul colossales — une simple requête à ChatGPT mobilise déjà des centaines de milliards d'opérations. Face à cette inflation computationnelle, LeWM propose une voie alternative inspirée du fonctionnement cognitif des animaux et des humains, capables d'apprendre par observation directe du monde. L'approche pourrait redistribuer les cartes dans la course à l'IA, où la puissance de calcul est devenu le principal facteur limitant.

Techniquement, LeWM repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un régulariseur gaussien simple baptisé SIGReg, conçu pour éviter l'effondrement des représentations — un problème classique dans ce type d'architecture. Le modèle s'entraîne de bout en bout directement à partir des pixels, avec seulement deux termes de perte, et affiche des performances de contrôle compétitives pour une fraction du coût de calcul habituel. LeCun avait posé les bases de cette vision il y a plus de quatre ans, du temps où il était encore chez Meta.

AMI Labs, fondée par LeCun avec d'autres chercheurs de renom après son départ de Meta, avait levé 890 millions d'euros début mars 2026. Le lancement de LeWM constitue la première concrétisation publique de cette ambition : construire une IA qui comprend le monde tel qu'il est, pas tel qu'il est décrit.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur
1Frandroid 

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur

Yann LeCun, chercheur français et directeur scientifique de Meta AI, reconnu comme l'un des pères fondateurs de l'intelligence artificielle moderne, a dévoilé avec son équipe un nouveau système baptisé LeWorldModel. La particularité revendiquée de ce modèle est sa capacité à fonctionner sur un seul GPU, une contrainte matérielle bien plus accessible que les clusters de milliers de puces utilisés par les grands modèles actuels. Les premiers résultats expérimentaux sont décrits comme très encourageants par les chercheurs. Si la promesse tient, LeWorldModel représenterait une avancée significative dans la démocratisation de l'IA : rendre possible une compréhension contextuelle du monde physique sans infrastructure colossale ouvre la voie à des déploiements embarqués, sur des robots, des véhicules autonomes ou des appareils grand public. Cela réduirait aussi la dépendance aux géants du cloud pour qui souhaite développer des applications d'IA perceptuelle. LeWorldModel s'inscrit dans la vision de long terme de LeCun, qui critique depuis plusieurs années les grands modèles de langage (LLM) pour leur incapacité à raisonner sur le monde réel. Il défend l'approche des "world models" — des systèmes capables de simuler et anticiper les états du monde physique, inspirés du fonctionnement cognitif humain. Cette annonce relance le débat sur la voie vers une IA plus robuste, face aux approches dominantes de type GPT portées par OpenAI et Google.

UEYann LeCun, chercheur français à la tête de Meta AI, porte une vision qui pourrait orienter la recherche européenne en IA vers des approches embarquées moins dépendantes des infrastructures cloud américaines.

RecherchePaper
1 source
15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel
2Numerama 

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Yann LeCun, directeur scientifique de Meta AI et figure centrale de l'intelligence artificielle moderne, publie avec un consortium de chercheurs LeWorldModel, un modèle de prédiction du monde capable de s'entraîner directement à partir de pixels bruts — sans prétraitement ni encodage intermédiaire — tout en maintenant une stabilité d'entraînement inédite à cette échelle. Le modèle repose sur 15 millions de paramètres et tourne sur un seul GPU, ce qui le rend accessible bien au-delà des grands laboratoires disposant de clusters massifs. L'enjeu est considérable pour la robotique et l'IA incarnée : pour qu'un robot puisse interagir de façon autonome avec son environnement physique, il doit d'abord modéliser le monde visuel tel qu'il est, image après image, sans dépendre d'annotations humaines. LeWorldModel ouvre cette voie en apprenant directement depuis la donnée visuelle brute, là où les approches précédentes échouaient souvent à converger ou nécessitaient des architectures beaucoup plus lourdes. C'est un pas concret vers une IA qui « comprend » le monde réel plutôt que de simplement le classifier. Cette publication intervient dans un contexte particulier : LeCun vient de cofonder AMI Labs, une startup basée en France dont les premiers travaux ne sont pas encore dévoilés. Depuis plusieurs années, il défend publiquement une vision alternative aux grands modèles de langage — il milite pour des systèmes d'IA basés sur la prédiction du monde physique plutôt que sur la génération de texte. LeWorldModel s'inscrit directement dans cette feuille de route, et pourrait constituer une brique fondamentale de l'architecture JEPA (Joint Embedding Predictive Architecture) qu'il développe chez Meta depuis 2022.

UELa cofondation par LeCun d'AMI Labs, startup basée en France, ancre directement ces travaux dans l'écosystème français de l'IA et pourrait constituer un pôle de recherche européen sur l'IA incarnée.

RecherchePaper
1 source
SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel
3Le Big Data 

SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel

Une équipe de chercheurs des universités Jiao Tong de Shanghai et du Centre-Sud, en partenariat avec le fabricant de smartphones OPPO, a publié en mai 2026 les travaux fondateurs du framework SkillMAS, un nouveau système d'orchestration d'agents d'intelligence artificielle. L'architecture, entièrement non paramétrique, ne modifie pas les poids des modèles de langage sous-jacents : elle fonctionne comme une couche logicielle supérieure qui permet à des équipes d'agents autonomes de réorganiser leurs rôles et de réécrire leurs outils en temps réel, sans aucune reprogrammation manuelle. Le mécanisme central repose sur une coévolution synchronisée à deux échelles : une échelle micro, qui gère les compétences techniques de chaque agent individuel, et une échelle macro, qui supervise l'organigramme collectif et redistribue les responsabilités au sein de l'équipe. Les deux niveaux s'influencent mutuellement en continu, ce qui confère au système une plasticité jusqu'ici absente des architectures classiques. Ce niveau d'adaptabilité répond à une limite structurelle des systèmes multi-agents actuels : leurs rôles et leurs outils sont figés par les développeurs au moment de la conception. Face à l'imprévu, ces architectures rigides entrent en boucles d'erreurs, consomment des quantités massives de tokens et nécessitent une supervision humaine constante, ce qui cantonne la technologie à des tâches bien balisées. SkillMAS brise ce plafond en permettant au système de s'adapter dynamiquement aux tâches complexes, réduisant à la fois les coûts opérationnels et la dépendance au pilotage humain. Pour OPPO, l'enjeu est directement industriel : cette architecture ouvre la voie à des assistants virtuels capables de gérer des situations inédites sans intervention extérieure, un saut qualitatif significatif pour les appareils grand public. Entre 2023 et 2025, la recherche en systèmes multi-agents avançait sur deux fronts séparés : des projets comme Voyager (Microsoft Research, 2023) exploraient la capacité des agents à créer leurs propres outils, tandis que des frameworks comme MetaGPT se concentraient sur la coordination collective. Aucun système ne fusionnait réellement ces deux dimensions. SkillMAS représente cette convergence, en unifiant apprentissage automatique et systèmes distribués dans une architecture unique. La validation en laboratoire démontre sa supériorité face aux standards actuels, et l'implication directe d'un acteur industriel comme OPPO suggère un passage prochain vers des applications commerciales. La prochaine étape sera de confirmer ces performances dans des environnements réels, hors conditions de laboratoire, où la robustesse des systèmes adaptatifs sera véritablement mise à l'épreuve.

UERecherche publiée par des universités chinoises en partenariat avec OPPO, sans impact immédiat sur la France/UE, mais susceptible d'influencer les architectures multi-agents à moyen terme.

RecherchePaper
1 source
Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
4MarkTechPost 

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic