Aller au contenu principal
Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie
RobotiqueLe Big Data4j

Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Nvidia a présenté Cosmos 3 lors du GTC de Taipei le 1er juin 2026, en parallèle de son robot humanoïde Isaac GROOT. Il s'agit du premier omnimodèle entièrement open source dédié à l'IA physique, disponible en deux variantes dès le lancement : une version "Super" de 32 milliards de paramètres, optimisée pour la précision dans des tâches comme la robotique et la conduite autonome, et une version "Nano" de 8 milliards de paramètres, conçue pour des inférences rapides. Une troisième déclinaison "Edge", utilisable directement sur des appareils locaux sans connexion cloud, est annoncée prochainement. Le modèle a été entraîné sur un corpus colossal de 20 000 milliards de tokens incluant près d'un milliard d'images, 400 millions de vidéos réelles et générées, des données audio ambiantes, du texte, ainsi que des traces d'actions captées sur des humains et des robots. Parmi les premiers partenaires industriels figurent Agile Robots, Black Forest Labs et Runway.

Ce qui distingue Cosmos 3 des générateurs vidéo ou des modèles multimodaux classiques, c'est sa capacité native à comprendre et produire des actions, et pas seulement des représentations visuelles. Le système peut générer des données concrètes comme les angles d'articulations d'un robot, des trajectoires ou des positions de pinces mécaniques, directement exploitables pour entraîner des machines à interagir avec le monde physique. Ming-Yu Liu, vice-président du Cosmos Lab chez Nvidia, a insisté sur ce point : modéliser les mouvements des machines, et non seulement l'apparence des environnements, est la clé des systèmes autonomes réellement opérationnels. Autre avantage majeur : Cosmos peut simuler des scénarios rares ou dangereux, comme des collisions robotiques ou des incidents routiers atypiques, qui sont coûteux et risqués à reproduire en conditions réelles. Nvidia affirme que des tâches d'entraînement qui demandaient auparavant plusieurs mois pourraient désormais être réalisées en quelques jours.

La publication de Cosmos 3 en open source s'inscrit dans la stratégie de Nvidia de construire un écosystème ouvert autour de l'IA physique, dans la lignée de sa famille de modèles Nemotron. En rendant le modèle librement adaptable, l'entreprise cherche à accélérer l'adoption industrielle tout en captant les retours du terrain pour orienter ses futures versions. Ce lancement intervient dans un contexte de compétition intense autour des fondations logicielles de la robotique et des véhicules autonomes, secteurs dans lesquels Google, Tesla et plusieurs startups chinoises investissent massivement. En positionnant Cosmos comme l'infrastructure commune de l'IA physique, Nvidia tente de reproduire dans le monde des machines intelligentes le rôle dominant que CUDA joue depuis vingt ans dans le calcul GPU.

Impact France/UE

Les laboratoires et entreprises européens de robotique et de conduite autonome peuvent désormais exploiter un modèle de fondation open source de référence pour l'IA physique, réduisant les coûts d'entraînement et la dépendance au cloud.

💬 Le point de vue du dev

C'est la comparaison avec CUDA qui dit tout : Nvidia ne veut pas vendre des GPU pour la robotique, il veut être l'infrastructure qu'on ne peut plus éviter. Cosmos 3 en open source, c'est le même coup que PyTorch, tu ouvres pour capter l'écosystème avant de le monétiser. Reste à voir si les labos européens ont vraiment les ressources pour en tirer parti.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
1NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

RobotiqueOpinion
1 source
NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
2MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
Les robots sont trop nuls dans la vraie vie : ces chercheurs ont enfin trouvé la solution
3Le Big Data 

Les robots sont trop nuls dans la vraie vie : ces chercheurs ont enfin trouvé la solution

Des chercheurs des universités d'Aston et de Birmingham ont mis au point un système basé sur l'intelligence artificielle pour résoudre l'un des problèmes les plus persistants de la robotique industrielle : l'échec des robots à fonctionner correctement dans des conditions réelles après un entraînement en simulation virtuelle. Leurs travaux, soutenus par le projet REBELION dans le cadre d'un programme de UK Research and Innovation dédié au recyclage sécurisé des batteries lithium-ion, montrent des résultats probants sur des tâches concrètes impliquant des interactions physiques avec des matériaux, notamment la manipulation et la découpe. La méthode consiste à introduire automatiquement, pendant la phase d'entraînement virtuel, des variations et des perturbations dans l'environnement simulé, forçant le robot à apprendre à gérer l'instabilité et l'imprévisibilité bien avant de rencontrer le monde réel. Ce que cette approche change fondamentalement, c'est la manière dont l'industrie peut déployer des robots dans des environnements complexes ou dangereux sans accumuler des milliers d'heures de tests physiques coûteux et risqués. Le "fossé entre simulation et réalité", ce phénomène bien connu des roboticiens où une machine maîtrisant parfaitement une tâche en virtuel déraille dans le monde physique à cause du bruit des capteurs, des légères variations de position des objets ou des forces inattendues, est précisément ce que cette méthode cherche à combler. Les résultats indiquent que les robots entraînés de cette façon deviennent plus stables et plus adaptatifs, même avec très peu de données réelles supplémentaires, ce qui représente un gain considérable en termes de coûts et de délais de mise en service. Le secteur du recyclage des batteries lithium-ion constitue le cas d'usage prioritaire des chercheurs, car il implique la manipulation de cellules endommagées ou instables, rendant les tests directs particulièrement hasardeux. Mais l'ambition va bien au-delà : l'équipe espère déboucher sur des robots industriels quasi "prêts à l'emploi", capables d'être entraînés rapidement en simulation puis déployés dans un nouvel environnement avec un minimum de reconfiguration. Dans un contexte où l'automatisation industrielle est sous pression pour s'adapter à des chaînes de production plus flexibles et à des pénuries de main-d'œuvre, une telle avancée pourrait accélérer significativement l'adoption de la robotique dans des secteurs encore réticents à cause des coûts et de la complexité du déploiement. La prochaine étape sera d'étendre cette validation à des environnements industriels plus diversifiés et moins contrôlés.

UELa recherche adresse un verrou industriel directement concerné par la réglementation européenne sur les batteries : l'automatisation du recyclage des cellules lithium-ion, imposée par l'EU Battery Regulation, pourrait être accélérée grâce à cette méthode sim-to-real.

RobotiqueActu
1 source
Ce que les discussions entre LG et NVIDIA révèlent sur l'avenir de l'IA physique
4AI News 

Ce que les discussions entre LG et NVIDIA révèlent sur l'avenir de l'IA physique

LG et NVIDIA sont actuellement en discussions exploratoires portant sur l'IA physique, les centres de données et la mobilité. Une rencontre à Séoul entre Ryu Jae-cheol, PDG de LG, et Madison Huang, directeur senior marketing produit pour Omniverse et la robotique chez NVIDIA, a permis de poser les bases d'une coopération potentielle. Aucun montant ni calendrier n'a encore été formalisé, mais les deux entreprises ont des priorités matérielles qui se recoupent sur deux fronts distincts : l'infrastructure thermique des centres de données et la robotique domestique. Sur le premier point, LG a présenté au CES 2026 des solutions de climatisation et de gestion thermique haute efficacité spécifiquement conçues pour les fermes de serveurs IA. Sur le second, le groupe coréen a dévoilé CLOiD, un robot domestique doté de deux bras à sept degrés de liberté et de cinq doigts à actuation individuelle, fonctionnant sur sa plateforme maison baptisée "Affectionate Intelligence". En parallèle, NVIDIA vient de conclure un essai de deux semaines sur un site Siemens en janvier 2026, annoncé en avril à la foire de Hanovre, où un robot humanoïde HMND 01 Alpha a exécuté des opérations logistiques réelles sur une plage de huit heures. Ces discussions révèlent une dépendance structurelle croissante entre les fabricants d'équipements physiques et les fournisseurs de puissance de calcul. Les racks de serveurs NVIDIA génèrent des densités de chaleur que les systèmes de refroidissement conventionnels ne peuvent plus absorber sans dégrader les performances : lorsque les nœuds de calcul surchauffent, ils réduisent automatiquement leur cadence, détruisant le retour sur investissement des puces haut de gamme. Intégrer les solutions thermiques de LG directement dans l'écosystème NVIDIA permettrait aux opérateurs d'entasser plus de puissance de calcul dans moins d'espace physique. Du côté robotique, LG manque aujourd'hui des environnements de simulation, des modèles de manipulation pré-entraînés et de l'infrastructure de jumeaux numériques nécessaires pour déployer CLOiD en toute sécurité dans des logements réels. La pile Omniverse et Isaac de NVIDIA offre précisément cette architecture, optimisée pour l'inférence physique en temps réel, ce qui permettrait de comprimer drastiquement le délai entre prototype et production commerciale. L'enjeu central de ces négociations illustre une fracture fondamentale de l'IA physique : les environnements industriels, comme l'usine Siemens d'Erlangen, sont structurés et prévisibles, ce qui facilite le déploiement de robots. Les intérieurs domestiques, eux, présentent une variabilité extrême en termes d'éclairage, de disposition et de comportement humain imprévisible, rendant le passage à l'échelle bien plus complexe. LG mise sur NVIDIA pour combler cette lacune via la puissance de simulation et l'inférence en périphérie de réseau. Pour NVIDIA, dont les revenus du segment centres de données battent régulièrement des records, nouer des partenariats avec des constructeurs d'appareils grand public comme LG représente une voie pour ancrer sa plateforme Omniverse comme standard de l'industrie robotique, avant que la concurrence chinoise ou les acteurs spécialisés ne s'imposent.

UELe déploiement d'un robot humanoïde sur le site Siemens d'Erlangen (Allemagne) signale une accélération de l'IA physique dans l'industrie manufacturière européenne, avec des implications pour les équipementiers et intégrateurs du secteur.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour