World Models contre VLAs : la fracture qui divise l'IA physique
L'industrie de la robotique est traversée par un débat technique majeur qui divise les acteurs de la Silicon Valley : quelle architecture d'intelligence artificielle doit piloter les robots de demain ? D'un côté, les partisans des modèles vision-langage-action (VLA), des dérivés des grands modèles de langage (LLM) qui ont été entraînés spécifiquement pour contrôler des robots. De l'autre, les défenseurs des "world models", des modèles entraînés principalement sur de la vidéo pour prédire ce qui va se produire dans un environnement physique lorsqu'un robot exécute une action. Ce clivage s'est cristallisé ce mois-ci avec deux annonces symboliques : la startup de vidéo IA Luma a lancé un laboratoire dédié à l'IA physique centré sur les world models pour la robotique, tandis que la startup de robots humanoïdes 1X a annoncé la création de son propre laboratoire world model.
L'enjeu est considérable. Des figures comme Elon Musk et Jensen Huang prédisent un "moment ChatGPT" pour la robotique, où l'IA permettra d'accomplir une large gamme de tâches physiques à une échelle comparable à celle des chatbots aujourd'hui. Le choix de l'architecture sous-jacente déterminera quelles entreprises domineront ce marché, quelles approches bénéficieront des investissements massifs des capital-risqueurs, et in fine quelle technologie se retrouvera au coeur des robots industriels, logistiques et domestiques des prochaines années.
Ce débat intervient alors que la robotique entre dans une phase d'accélération inédite, portée par les progrès des LLM et la disponibilité croissante de données vidéo pour l'entraînement. Les VLA profitent de l'élan des modèles de langage déjà bien maîtrisés, mais les world models promettent une compréhension plus profonde des lois physiques et une meilleure capacité à anticiper les conséquences des actions dans le monde réel. La multiplication des laboratoires spécialisés, financés par du capital-risque, suggère que les prochains mois verront des benchmarks décisifs entre ces deux approches.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




