Dossier NVIDIA — page 17

856 articles · page 17 sur 18

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

801Robotics Business Review RobotiqueOpinion

Pourquoi l'IA physique 2.0 a besoin d'un retour à la réalité

L'intelligence artificielle physique amorce une transition conceptuelle que le secteur commence à nommer "Physical AI 2.0". La première génération, aujourd'hui dominante, repose sur une logique de volume : des milliards de séquences vidéo et textuelles, complétées par des simulateurs hyperréalistes comme la plateforme Cosmos de NVIDIA, permettent d'entraîner des systèmes robotiques avant tout déploiement réel. Ce paradigme, qualifié de "vision-first", postule qu'avec suffisamment de caméras et de puissance de calcul, un robot peut modéliser et anticiper son environnement. Mais cette hypothèse se révèle fragile dès que les capteurs sont éblouis, que des objets sont occultés ou que les données sont bruitées et contradictoires. La "Physical AI 2.0" propose d'introduire une couche supplémentaire dans la pile logicielle : la récupération d'état physique (physical state recovery), qui reconstruit l'état réel du monde à partir de données incomplètes ou dégradées, avant même que le raisonnement de haut niveau n'entre en jeu. L'architecture cible comprend quatre briques en boucle fermée : des modèles du monde nourris par la simulation et l'expérience passée ; la récupération d'état physique ; un module de raisonnement qui sélectionne une intention ; et l'action, exécutée dans des contraintes de sécurité strictes. Le raisonnement n'actionne pas directement les effecteurs : il propose une intention, que la logique de planification et de sécurité traduit ensuite en mouvement borné. L'enjeu industriel est concret. Un robot qui mal-estime l'état de son environnement ne peut pas raisonner correctement, même si son modèle sous-jacent est de haute qualité : une mauvaise observation produit une erreur de raisonnement confiante, pas simplement une incertitude. La distinction clé est entre "cas difficile" et "cas mal observé". Un benchmark peut identifier qu'un système échoue dans des scénarios d'occlusion ou de comportements atypiques d'usagers de la route, sans pour autant corriger l'observation elle-même. Traiter la récupération d'état comme un module dédié, potentiellement alimenté par des capteurs spécialisés comme le radar ou des capteurs tactiles, évite à chaque nouveau robot de réapprendre les lois élémentaires de la physique depuis zéro. Pour les intégrateurs et décideurs B2B, la conséquence pratique est que l'unité de compétition dans l'IA physique n'est plus le modèle seul, mais l'ensemble de la chaîne : captation, simulation, entraînement de politique, orchestration, sécurité embarquée et boucle de retour terrain. Ce cadrage s'inscrit dans un débat plus large sur les limites des approches end-to-end dans la robotique et l'autonome. NVIDIA a investi massivement dans Cosmos pour normaliser la simulation physique, et plusieurs laboratoires explorent des architectures de type VLA (Vision-Language-Action) qui intègrent partiellement ces problématiques. L'argument central du texte est qu'agrandir indéfiniment des modèles bout-en-bout n'est pas la seule voie : une couche dédiée à la récupération d'état physique serait à la fois plus efficiente et plus robuste. À noter que ce texte est publié en amont de la conférence RoboBusiness 2026 et constitue essentiellement un cadrage conceptuel d'un positionnement produit, sans annonce ni déploiement commercial à la clé. Aucune métrique de performance concrète n'est avancée pour étayer la thèse, ce qui limite l'évaluation indépendante des affirmations.

Dossier NVIDIA — page 17

Pourquoi l'IA physique 2.0 a besoin d'un retour à la réalité

RLWRLD désignée Pionnière Technologique du Forum Économique Mondial pour ses avancées en infrastructure d'IA physique

PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Robustesse des tâches par ré-étiquetage des données vision-action pour robots

Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Flux compositionnelle sparse : assemblage géométrique à partir de primitives de mouvement

EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

San Francisco accueille un club de combat de robots, General Catalyst fait le buzz

L'IA a enrichi une infime part de la Silicon Valley et laissé les autres s'interroger sur leur place

La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi

Le startup qui aide OpenAI à optimiser son IA pour les puces Cerebras

BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2

HP et l'art de l'IA et des données pour les entreprises

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

[AINews] AI Engineer World's Fair : appel à conférenciers (agents autonomes, mémoire, modèles du monde, IA verticale)

RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs

Alibaba, ByteDance et Zhipu AI figurent dans le premier classement IA du magazine Time

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Yixing Intelligence lève 1,5 milliard de yuans en série B pour ses puces IA RISC-V

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Comment Intel compte utiliser l’IA pour diviser le poids de vos jeux PC par 18

Semaine nationale de la robotique : dernières avancées en IA physique et ressources

Vidéo du vendredi : un robot humanoïde apprend à jouer au tennis face à des humains

Alibaba lance une plateforme d'agents IA pour les entreprises

Une IA qui « voit » le monde : le pari à 1 milliard de dollars de Yann LeCun

Sandberg et Clegg rejoignent le conseil d'administration de Nscale alors que cette start-up norvégienne « Stargate Norway » atteint une valorisation de 14,6 milliards de dollars

L'IA physique fait son entrée triomphale et tout le monde veut en profiter