Aller au contenu principal
Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models
RobotiqueThe Information AI5sem

Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models

Résumé IASource uniqueImpact UE
Source originale ↗·

Deux nouvelles startups spécialisées dans les modèles du monde viennent d'entrer dans la course aux financements. Dream Labs, fondée ce mois d'avril 2026 par Joel Jang, ancien chercheur chez Nvidia où il travaillait sur le projet Groot, le modèle de l'entreprise dédié aux robots humanoïdes, cherche à lever plusieurs dizaines de millions de dollars pour son premier tour de table. Parallèlement, One World AI, cofondée par Sherry Yang, professeure à l'Université de New York et chercheuse principale chez Google DeepMind, vise une levée de 100 millions de dollars, selon des sources proches des négociations.

Ces modèles du monde, ou "world models", sont des modèles de fondation conçus pour simuler la physique des interactions entre objets, humains et environnements. Ils sont considérés par une partie de la communauté de recherche comme une brique essentielle pour développer des robots capables d'agir de manière autonome et fiable dans le monde réel. L'intérêt des investisseurs pour ce secteur est donc directement lié aux ambitions croissantes de l'industrie robotique, qui cherche à dépasser les limites actuelles de la manipulation physique et du raisonnement spatial.

Le mouvement s'inscrit dans un élan plus large initié ces douze derniers mois, durant lesquels des acteurs comme World Labs, la startup de la chercheuse en vision artificielle Fei-Fei Li, et AMI Labs, portée par le directeur scientifique de Meta Yann LeCun, ont levé chacun plusieurs milliards de dollars sur cette même thèse technologique. La convergence de profils issus de Nvidia, Google DeepMind et des grandes universités autour de ce segment précis signale que le pari sur les modèles du monde est en train de passer du stade académique à celui de la compétition industrielle à grande échelle.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Une startup forme des robots en envoyant des humains filmer le ménage chez vous
1Ars Technica AI 

Une startup forme des robots en envoyant des humains filmer le ménage chez vous

La startup allemande MicroAGI propose depuis le 28 mai 2026 un service de nettoyage à domicile entièrement gratuit aux habitants de New York, avec une contrepartie inhabituelle : les agents de ménage portent des caméras qui enregistrent l'intégralité de leur intervention. Le service est accessible via l'application Shift, lancée simultanément par l'entreprise. Pour réserver, les utilisateurs doivent fournir leur numéro de téléphone, adresse e-mail, adresse du domicile et les instructions d'accès. Chaque session dure environ deux heures. La communication autour du lancement a été soignée : vidéos sur X et LinkedIn accompagnées des notes de piano d'« Empire State of Mind » de Jay-Z et Alicia Keys. Les images captées par les caméras servent à entraîner la prochaine génération de robots domestiques. MicroAGI se décrit comme une équipe d'ingénieurs, de chercheurs et d'opérateurs dont la mission est d'« accélérer l'IA incarnée », c'est-à-dire des systèmes capables d'agir physiquement dans le monde réel. Le modèle économique est clair : les habitants obtiennent un ménage gratuit, la startup obtient des données rares et précieuses, des séquences vidéo en vue subjective montrant comment un humain navigue dans un appartement, manipule des objets et exécute des tâches quotidiennes. Ce type de données est l'un des goulots d'étranglement majeurs du développement de robots ménagers. L'initiative s'inscrit dans une course mondiale à la robotique domestique, où des acteurs comme Figure, Physical Intelligence ou Boston Dynamics investissent des centaines de millions de dollars pour doter des robots d'une compréhension fine de l'environnement humain. La collecte de données via des humains équipés de caméras est une approche déjà adoptée par plusieurs laboratoires, mais rarement proposée directement au grand public sous forme de service commercial. Le modèle soulève néanmoins des questions sur la vie privée : les résidents invitent chez eux des inconnus munis de caméras, dans leurs espaces les plus intimes. MicroAGI n'a pas encore précisé comment ces données seront stockées, protégées ou éventuellement partagées.

UEMicroAGI étant une startup allemande, ses pratiques de collecte de données vidéo au domicile de particuliers pourraient être scrutées au regard du RGPD européen.

RobotiqueActu
1 source
De DeepSeek à DeepRoute : pourquoi un chercheur en IA de premier plan a misé sur le monde physique
2Pandaily 

De DeepSeek à DeepRoute : pourquoi un chercheur en IA de premier plan a misé sur le monde physique

Le 25 avril 2026, lors du Salon de l'automobile de Pékin, la startup chinoise d'autonomie véhiculaire DeepRoute.ai a tenu une conférence de presse inhabituelle dans le hall A4 du China International Exhibition Center : aucun véhicule en exposition, aucun prototype sur scène. Son PDG, Maxwell Zhou, a choisi ce vide comme manifeste. En une après-midi, il a dévoilé la nouvelle architecture stratégique de l'entreprise autour du concept de "Physical AI", son modèle fondateur (Foundation Model), une ébauche d'agent intégrant conduite et habitacle, et un chiffre clé : un véhicule sur trois équipé d'un système NOA urbain en Chine tourne aujourd'hui sur la technologie DeepRoute, soit plus de 300 000 voitures en circulation. L'événement a également marqué la première apparition publique de Ruan Chong, ancien directeur R&D de DeepSeek et chercheur central en IA multimodale, depuis son arrivée chez DeepRoute en tant que Chief Scientist. Ce repositionnement marque une rupture nette avec la logique dominante du secteur. Là où les acteurs de la conduite autonome se sont longtemps concurrencés sur des benchmarks techniques, quelle pluie, quel angle mort, quel cas limite, DeepRoute revendique désormais un rôle d'infrastructure, comparable selon Zhou à "l'électricité ou les télécommunications". L'objectif affiché est d'atteindre 1 000 miles ou plus entre deux interventions critiques (MPCI) d'ici fin 2026. "Quatre-vingt-dix pour cent de ce qui compte, c'est la sécurité", a déclaré Zhou, ajoutant que Tesla a déjà atteint ce seuil et que les petits modèles ne permettront jamais d'y parvenir : "Quoi que vous fassiez dans le monde des petits modèles, vous ne pouvez pas obtenir dix fois mieux en travaillant plus fort." Le virage vers les grands modèles de fondation est donc présenté comme une nécessité structurelle, pas une option. Le recrutement de Ruan Chong illustre une dynamique plus large que Zhou a explicitement nommée : les responsables de la recherche multimodale des grands groupes internet chinois migrent vers la conduite autonome. Ruan lui-même a expliqué ce choix avec franchise : "Les modèles de langage sont très matures, presque n'importe quelle tâche peut être traitée par un seul modèle. Mais dans l'intelligence multimodale et incarnée, on en est loin. Je préfère être à la frontière." Cette migration de talents, si elle se confirme, signale que le centre de gravité de l'IA appliquée se déplace du texte vers le monde physique. DeepRoute entend capitaliser sur cette fenêtre, avant que le secteur n'atteigne lui-même la maturité qu'a connue le NLP.

UELa montée en puissance de DeepRoute et la migration de talents IA vers l'autonomie véhiculaire en Chine renforcent la pression compétitive sur les constructeurs automobiles européens dans la course au véhicule autonome.

RobotiqueOpinion
1 source
Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle
3NVIDIA AI Blog 

Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle

NVIDIA Research présente cette semaine au CVPR 2026 trois nouveaux papiers de recherche qui partagent une ambition commune : entraîner des systèmes à grande échelle pour qu'ils généralisent au-delà de leurs cas d'usage initiaux. Le premier, GraspGen-X, est décrit comme le premier modèle fondamental pour la saisie robotique zéro-shot : entraîné sur deux milliards de saisies simulées couvrant des milliers de formes d'objets et de configurations de pinces, il est capable de générer des propositions de prise fiables pour n'importe quelle pince robotique, y compris des modèles qu'il n'a jamais rencontrés. Le deuxième papier, LCDrive, introduit une approche pour la conduite autonome qui remplace le raisonnement textuel par des représentations latentes compactes, permettant aux véhicules de raisonner plus vite sur le matériel embarqué réel. Enfin, NitroGen est un modèle fondamental d'IA de gameplay, construit sur l'architecture NVIDIA Isaac GR00T, qui aide à entraîner des agents incarnés dans des environnements virtuels sur des dizaines de milliers d'heures d'interaction. Ces trois travaux répondent à des verrous concrets qui freinent le déploiement de l'IA physique aujourd'hui. Pour la robotique, le problème était simple mais paralysant : chaque nouveau type de pince nécessitait un cycle complet de collecte de données, fine-tuning et validation. GraspGen-X élimine ce goulot d'étranglement en fonctionnant comme un grand modèle de langage appliqué à la géométrie, utilisable directement avec les pinces courantes sans réentraînement. En parallèle, LCDrive adresse une contrainte matérielle réelle des véhicules autonomes : le raisonnement par chaîne de pensée basé sur du texte génère des tokens qui coûtent du temps de calcul, un luxe que les processeurs embarqués dans les voitures ne peuvent pas se permettre en situation réelle. En remplaçant les mots par des représentations latentes, le système peut raisonner plus vite sur le même hardware. Ces annonces s'inscrivent dans une dynamique plus large chez NVIDIA, qui positionne l'IA physique comme le prochain grand chantier après les LLM. La conférence CVPR, l'une des plus importantes en vision par ordinateur, est un terrain de choix pour valider ces approches auprès de la communauté académique avant leur adoption industrielle. GraspGen-X s'intègre d'ailleurs avec curoboV2, une nouvelle bibliothèque de planification de mouvement accélérée par CUDA, et s'appuie sur des travaux antérieurs comme Grasp-MPC présenté à l'ICRA 2026. Pour les développeurs de robots et de véhicules autonomes, l'enjeu est de taille : réduire les cycles de développement grâce à des modèles fondamentaux capables de s'adapter à de nouveaux contextes sans repartir de zéro, une approche qui commence à prouver sa valeur dans le monde du langage et que NVIDIA ambitionne désormais d'imposer dans le monde physique.

UELes avancées en préhension robotique zéro-shot et en inférence embarquée pour véhicules autonomes pourraient bénéficier aux industriels européens de la robotique et de l'automobile cherchant à réduire les cycles de développement.

RobotiquePaper
1 source
Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source
4The Decoder 

Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source

Lors du GTC Taipei, Nvidia a dévoilé plusieurs modèles destinés à accélérer son offensive dans l'IA physique. La conférence a été marquée par trois annonces majeures : Cosmos 3, un nouveau modèle de monde (world model) de dernière génération, Alpamayo 2 Super, une version considérablement élargie du modèle de conduite autonome, et une plateforme de référence ouverte pour robots humanoïdes. Ces annonces s'inscrivent dans la stratégie de Jensen Huang de faire de Nvidia le fournisseur incontournable de l'infrastructure pour les systèmes physiques intelligents. Ces outils visent des marchés en pleine explosion : la robotique industrielle, les véhicules autonomes et les systèmes de surveillance vidéo intelligents. Un world model comme Cosmos 3 permet à des robots ou des voitures autonomes de simuler leur environnement et d'anticiper les conséquences de leurs actions, une brique fondamentale pour passer de la démonstration laboratoire au déploiement à grande échelle. La plateforme humanoïde ouverte, quant à elle, vise à standardiser le développement matériel et logiciel pour les constructeurs de robots à deux jambes, réduisant les coûts d'entrée pour les startups du secteur. Nvidia capitalise ici sur sa domination dans les GPU d'entraînement pour étendre son empreinte vers l'inférence embarquée et les systèmes temps-réel. La concurrence s'intensifie avec des acteurs comme Qualcomm et Intel sur les puces pour véhicules autonomes, tandis que des entreprises comme Figure, Boston Dynamics ou 1X Technologies attendent des plateformes logicielles communes pour accélérer leurs développements. GTC Taipei confirme que Nvidia ne veut pas seulement alimenter les data centers de l'IA, il veut aussi être le cerveau des machines qui bougent.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW, Volkswagen) et les startups robotiques européennes pourraient bénéficier de la plateforme humanoïde ouverte pour réduire leurs coûts d'entrée et accélérer leurs développements en robotique industrielle et véhicules autonomes.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour