Dossier NVIDIA — page 5

296 articles · page 5 sur 6

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

201arXiv cs.RO RobotiqueOpinion

Planification VLA à horizon étendu par conditionnement sur traces

Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint. Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide. Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.

Dossier NVIDIA — page 5

Planification VLA à horizon étendu par conditionnement sur traces

Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

Pourquoi DeepSeek cherche encore des financements malgré ses importantes liquidités, selon des sources

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

Cursor AI : une levée de 2 milliards de dollars pour transformer le codage en entreprise

Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence

Les bons résultats de TSMC confirment l'élan de l'IA

On a testé le MacBook Pro M5 Pro avec 48 Go de RAM : la config parfaite pour de l’IA locale ?

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Meta parie 21 milliards sur CoreWeave : La nouvelle référence de la valorisation IA ?

Intel TSNC : l’incroyable IA qui va réduire le poids de vos jeux vidéo par 18

Eric Boyd quitte Microsoft pour diriger l’infrastructure chez Anthropic

OpenClaw vs ChatGPT : quel agent IA local bat le roi du cloud ?

Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés

OpenAI, Anthropic et Google s’allient contre le siphonnage de leurs modèles par la Chine

Intel participera à la construction de l'usine de puces IA Terafab d'Elon Musk

Anthropic (Claude) pourrait dépasser OpenAI (ChatGPT) en 2026 et annonce un partenariat avec Google

Anthropic signe un accord de 3,5 gigawatts avec Broadcom et Google pour des TPU

Deepseek v4 tournerait entièrement sur des puces Huawei, une avancée majeure pour l'indépendance de la Chine en IA

Quatre conditions pour installer des centres de données dans l'espace

Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement

Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun

Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart

Les entreprises tournent la page du Shadow AI : Kilo lance KiloClaw for Organizations pour des agents IA sécurisés à grande échelle

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Ollama accélère les modèles locaux sur Mac grâce au support MLX

Eli Lilly signe un accord avec Insilico Medicine, une biotech cotée Hong-Kong

Les prix des H100 s'envolent

Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence

Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

L'avenir de l'IA entre ouverture et propriétaire

Les datacenters passent du courant alternatif au continu : la revanche d'Edison

Nscale fait irruption dans la cour des grands du développement de centres de données

Mastercard surveille la fraude grâce à un nouveau modèle de fondation

NemoClaw, analyse et prise en main de la « prison » pour sécuriser les agents IA

Disneyland Paris dévoile Olaf : son robot IA ultra avancé contrôlé par Steam Deck

Voici un nouveau format que j'aimerais essayer

Meta s’allie à Nebius pour sécuriser 27 milliards de puissance IA

Comment l'économie de l'IA multi-agents influence l'automatisation des entreprises

Microsoft négocie la location d'un vaste site de datacenter au Texas après le retrait d'Oracle

ABB : la simulation d'IA physique améliore le ROI dans l'automatisation industrielle

Le modèle de codage NousCoder-14B de Nous Research fait son entrée dans le moment des assistants Claude pour le code