Aller au contenu principal
L'unité Cosmos Reason 2 d'NVIDIA apporte une raison avancée pour les intelligences artificielles physiques
RobotiqueHuggingFace Blog24sem· 1 min de lecture

L'unité Cosmos Reason 2 d'NVIDIA apporte une raison avancée pour les intelligences artificielles physiques

Source originale ↗·

NVIDIA présente Cosmos Reason 2, une technologie d'IA physique avancée offrant une raisonnement complexe et des capacités d'adaptation améliorées pour les robots et les systèmes de réalité augmentée. Cette innovation vise à permettre aux machines de mieux comprendre et interagir avec leur environnement physique.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Physical AI : l’intelligence artificielle incarne enfin le monde réel
1Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

RobotiqueOpinion
1 source
Drones : l'intelligence artificielle à l'offensive
2Sciences et Avenir Tech 

Drones : l'intelligence artificielle à l'offensive

Le conflit en Ukraine s'est imposé comme le premier théâtre de guerre à grande échelle où les drones autonomes jouent un rôle central et structurant. Des milliers d'appareils — aériens, terrestres et maritimes — sont déployés quotidiennement par les deux camps, transformant radicalement la nature des combats. L'intégration de l'intelligence artificielle dans ces systèmes permet désormais de coordonner plusieurs drones simultanément en essaim, leur donnant la capacité d'accomplir des missions complexes sans intervention humaine constante. Cette évolution remet en cause des décennies de doctrine militaire fondée sur des plateformes coûteuses et centralisées. Des drones peu onéreux, produits en masse et guidés par des algorithmes, peuvent saturer les défenses adverses ou effectuer des reconnaissances en temps réel, là où un char ou un avion de combat aurait auparavant été nécessaire. Pour les états-majors, cela impose des cycles d'innovation beaucoup plus rapides : une conception qui prenait dix ans doit désormais s'adapter en quelques mois face à un adversaire qui apprend et contre-adapte aussi vite. Ce basculement technologique ne concerne pas seulement l'Ukraine et la Russie. Les grandes puissances militaires — États-Unis, Chine, mais aussi les armées européennes — observent ce conflit comme un laboratoire en temps réel et accélèrent leurs propres programmes de drones autonomes. La modularité permise par l'IA ouvre la voie à des essaims hétérogènes capables de s'adapter dynamiquement à la mission, soulevant des questions juridiques et éthiques majeures sur le contrôle humain des décisions létales.

UELes armées européennes accélèrent leurs propres programmes de drones autonomes en s'appuyant sur les enseignements du conflit ukrainien, ce qui soulève des enjeux réglementaires et éthiques urgents sur le contrôle humain des systèmes létaux au sein de l'UE.

RobotiqueOpinion
1 source
NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
3NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

RobotiqueOpinion
1 source
NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
4MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic