Aller au contenu principal
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
RechercheNext INpact5h

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

1 source couvre ce sujet·Source originale ↗·

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

À lire aussi

1Numerama8h

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Yann LeCun, directeur scientifique de Meta AI et figure emblématique de l'apprentissage profond, vient de co-publier LeWorldModel, un modèle de 15 millions de paramètres capable de s'entraîner directement à partir de pixels bruts sur un seul GPU, sans instabilité d'entraînement. Ce travail, fruit d'une collaboration avec un consortium de chercheurs en IA, représente une première démonstration concrète de la vision de LeCun pour une IA capable de comprendre le monde physique. L'annonce intervient en parallèle du lancement d'AMI Labs, sa nouvelle startup fondée en France, dont les premières recherches n'ont pas encore été rendues publiques. La capacité à apprendre depuis des pixels bruts sans instabilité est un verrou technique majeur : la plupart des modèles existants nécessitent des données prétraitées ou des architectures complexes pour rester stables durant l'entraînement. Avec 15 millions de paramètres seulement — soit une fraction infime des grands modèles de langage — LeWorldModel ouvre la voie à des systèmes embarquables dans des robots ou des appareils à ressources limitées, capables de percevoir et d'anticiper leur environnement physique en temps réel. Ce développement s'inscrit dans la longue campagne de LeCun contre les grands modèles de langage, qu'il juge insuffisants pour atteindre une intelligence générale. Depuis plusieurs années, il défend l'architecture JEPA (Joint Embedding Predictive Architecture), centrée sur la prédiction dans un espace de représentations plutôt que sur la génération de tokens. LeWorldModel constitue une preuve de concept partielle de cette approche. Avec AMI Labs désormais opérationnel en France, LeCun entend accélérer cette recherche vers des IA capables d'agir dans le monde réel — un chantier qui pourrait redéfinir la robotique et l'IA incarnée dans les prochaines années.

UEAMI Labs, la startup de LeCun fondée en France, ancre directement cette recherche sur l'IA incarnée sur le territoire français, avec des retombées potentielles pour l'écosystème robotique et IA européen.

RecherchePaper
1 source
2TechCrunch AI18h

Décan AI, rivale de Mercor, obtient 25 millions de dollars en financement et recrute des experts en provenance d'Inde

Paragraphe 1: Le 28 avril dernier, Deccan AI, un concurrent de Mercor, a annoncé une levée de fonds de 25 millions de dollars pour renforcer sa présence en Inde. Cette entreprise s'est spécialisée dans l'embauche de professionnels locaux pour gérer la qualité dans un marché naissant et dispersé d'entraînement en intelligence artificielle (IA). Paragraphe 2: Cette initiative est cruciale car elle permet à Deccan AI de tirer parti des compétences pointues en IA de l'Inde, un pays qui a rapidement gagné en réputation dans ce domaine. En concentrant ses ressources humaines localisées, Deccan vise à se démarquer dans un marché fragmenté où la qualité et l'efficacité sont essentielles pour attirer des clients. Cette stratégie pourrait non seulement renforcer sa position concurrentielle face à Mercor, mais aussi contribuer au leadership global de l'Inde dans l'industrie de l'IA. Paragraphe 3: Ce mouvement se produit alors que l'intérêt mondial pour les solutions d'IA continue de croître, avec un accent particulier sur la qualité et l'efficacité des systèmes d'apprentissage automatique. En s'appuyant sur le talent local, Deccan AI cherche à répondre efficacement à cette demande croissante tout en renforçant sa propre capacité innovante dans un secteur de plus en plus compétitif.

RechercheReglementation
1 source
3MarkTechPost19h

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source
4Ars Technica AI1j

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google Research a dévoilé TurboQuant, un nouvel algorithme de compression conçu pour réduire l'empreinte mémoire des grands modèles de langage (LLM) tout en améliorant leur vitesse. Selon les premiers résultats publiés par Google, TurboQuant permet une réduction de la mémoire jusqu'à 6 fois et un gain de performance jusqu'à 8 fois dans certains tests, sans dégradation mesurable de la qualité des sorties. TurboQuant cible spécifiquement le cache clé-valeur, une sorte de "mémo numérique" que les LLM utilisent pour stocker des informations déjà calculées et éviter de les retraiter. Ce cache stocke des vecteurs haute dimension — des représentations mathématiques du sens des mots et des phrases — qui peuvent contenir des centaines, voire des milliers d'embeddings. Plus ces vecteurs sont complexes, plus ils occupent de mémoire, créant un goulot d'étranglement qui ralentit les modèles et alourdit leur déploiement. Jusqu'ici, les techniques de quantification classiques permettaient bien de compresser ces modèles en abaissant leur précision, mais au prix d'une baisse notable de la qualité des réponses. TurboQuant prétend résoudre ce compromis en maintenant la précision malgré la compression. La mémoire est l'une des ressources les plus contraignantes dans le déploiement des IA génératives, tant en centre de données que sur les appareils grand public. Une compression efficace sans perte de qualité représente un enjeu majeur pour rendre ces modèles plus accessibles et moins coûteux à faire tourner.

RecherchePaper
1 source