Dossier NVIDIA — page 8

848 articles · page 8 sur 17

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

351arXiv cs.RO RobotiqueOpinion

InSight : acquisition autonome de compétences via des VLA pilotables

Une équipe de chercheurs présente InSight (arXiv:2606.24884, juin 2026), un cadre d'acquisition autonome de compétences pour les modèles vision-language-action (VLA). L'architecture comporte deux étapes : d'abord un pipeline de segmentation automatique qui décompose des démonstrations existantes en primitives étiquetées ("déplacer la pince vers le bol", "soulever vers le haut", "verser la bouteille") via un VLM de décomposition de plans couplé aux poses de l'effecteur terminal ; ensuite un flywheel de données guidé par VLM qui identifie les primitives manquantes pour accomplir une nouvelle tâche, tente des démonstrations autonomes via un contrôle bas niveau proposé par le VLM, et intègre automatiquement les succès dans l'ensemble d'entraînement. Le système a été validé sur cinq tâches de manipulation : retournement de blocs, fermeture de tiroir, balayage, vissage et versement, en simulation et en conditions réelles, sans aucune démonstration humaine des compétences cibles. L'enjeu central : les VLA actuels sont structurellement limités par leur corpus d'entraînement initial, et toute extension vers de nouvelles tâches impose aujourd'hui un coût élevé en téléopération humaine. InSight propose une boucle d'auto-amélioration fermée où les primitives apprises peuvent être composées pour exécuter des tâches à horizon long sans intervention humaine supplémentaire. Pour un intégrateur ou un COO industriel, cela représente une réduction potentielle du coût d'onboarding robotique. Les démonstrations publiées restent cependant relativement simples, et les auteurs ne fournissent pas de métriques de cycle time ni de taux de succès pour des scénarios de production complexes, ce qui invite à la prudence avant toute extrapolation opérationnelle. Les modèles VLA sont un terrain de compétition intense entre Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et Figure AI (Helix pour la manipulation humanoïde). Tous partagent le même verrou : un plafond de capacités figé à l'entraînement. InSight s'inscrit dans une tendance émergente de systèmes capables de s'auto-étendre, proche des travaux sur les agents génératifs de données. Cette publication demeure un preprint académique sans déploiement annoncé ; les auteurs prévoient de rendre le code public via insight-vla.github.io. Les prochaines étapes concernent la robustesse du flywheel sur des primitives moins déterministes et la validation en environnement industriel réel sur des bras à plus de six degrés de liberté.

Dossier NVIDIA — page 8

InSight : acquisition autonome de compétences via des VLA pilotables

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

MoonMath AI publie en open source un kernel d'attention HIP pour AMD MI300X surpassant AITER v3 sur toutes les configurations

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

ATHENA : fonctions d'influence hétérogènes multi-tâches accélérées pour la curation de données robotiques

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Uber : des robotaxis en Europe dès 2026

DeepSeek V4 : émancipation chinoise et urgence d’une stratégie IA européenne

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

Apple tente d'intégrer le grand modèle Gemini dans l'iPhone pour améliorer Siri

☕️ Quand l’IA agentique coûte plus cher que de payer ses employés humains

Le suivi de points améliore les modèles d'action du monde

Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA

Face aux États-Unis et à la Chine, MISTRAL cherche son propre modèle d’IA et fait l’acquisition d’Emmi AI

SAP Sapphire : l’entreprise autonome devient la nouvelle vision B2B de SAP

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

Intel pourrait fabriquer les futures puces IA d’Apple

Voxtral de Mistral comble le fossé d'expressivité dans le clonage vocal multilingue grâce à une architecture hybride

Nebius, Lambda et CoreWeave refusent les TPUs malgré la pression de Google

Le Pentagone choisit ses nouveaux fournisseurs IA et exclut Anthropic… enfin presque

IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains

Le FOMO pousse les entreprises à payer des GPU inutilisés et fait grimper les prix

Token, compute, dérive des usages : pourquoi l’IA peut coûter plus cher que vos équipes ?

De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Les locataires de GPU jouent à la loterie du silicium

Google lance ses TPU v8 et spécialise ses puces pour l’IA : enjeux et comparatif maison

Tencent et Alibaba négocient une entrée dans DeepSeek à plus de 20 milliards

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA

« L’IA va nous détruire » : le manifeste du premier terroriste anti-ChatGPT

[AINews] Le dernier souffle de l'humanité

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner

Perplexity voit ses revenus grimper de 50% grâce aux agents IA

Anthropic dévoile Mythos, son modèle d’IA chasseur de failles… réservé à certains

Anthropic lance un nouveau modèle d'IA pour la cybersécurité

Gemma 4 dépasse les 2 millions de téléchargements

L'IA est insatiable

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks

OpenAI scénarise son IPO et conclut son tour sur un cliffhanger à 852 milliards de dollars

Cette IA peut créer de nouveaux génomes

136 cœurs, 3 nm… Arm dévoile une première puce bien à lui, et elle dépote

Le premier CPU signé Arm va équiper les datacenters IA de Meta plus tard cette année

The Download : l'accord militaire d'OpenAI avec les États-Unis et le procès de Grok pour CSAM

Ce que l'accord Meta-Nebius révèle

Yann LeCun lance AMI Labs et lève 1,03 milliard pour créer des modèles du monde