
NVIDIA lance Dynamo Snapshot : démarrage rapide pour l'inférence IA sur Kubernetes via CRIU
L'équipe de recherche en IA de NVIDIA a publié Dynamo Snapshot, un système de démarrage rapide pour les charges de travail d'inférence sur Kubernetes, reposant sur une approche de type checkpoint/restore. Le dispositif combine deux outils : CRIU (Checkpoint/Restore in Userspace), qui sérialise l'état CPU d'un processus Linux vers le disque, et cuda-checkpoint, qui capture l'état GPU (contextes CUDA, mémoire device, mappings d'adresses virtuelles) vers la RAM avant que CRIU ne prenne le relais. Le résultat est une image complète de l'état d'un serveur d'inférence en cours d'exécution, stockée sur un système de fichiers partagé (NFS ou SMB), et restaurable sur n'importe quel nœud du cluster. Côté Kubernetes, NVIDIA fournit un DaemonSet privilégié appelé snapshot-agent, déployable via Helm chart, qui gère les opérations de checkpoint et de restauration pour les conteneurs runc sans modification du runtime lui-même.
Le problème que résout Dynamo Snapshot est concret et coûteux : le démarrage à froid d'un serveur d'inférence vLLM (version 0.20.0) sur un seul GPU se décompose en trois phases, téléchargement de l'image conteneur, initialisation du moteur (chargement des poids, warmup des kernels CUDA, compilation des graphes), et démarrage du runtime distribué, ce qui peut représenter plusieurs minutes pendant lesquelles les GPU sont alloués mais inactifs, sans générer le moindre token. Dans un environnement de production soumis à des pics de trafic imprévisibles, cette latence de démarrage expose directement les opérateurs à des violations de SLA : le système ne peut pas scaler assez vite pour absorber une hausse soudaine de la demande. Avec Dynamo Snapshot, le processus restauré reprend exactement à l'instruction où il a été figé, sans avoir conscience qu'une interruption s'est produite, réduisant le temps effectif de mise en service à une fraction du démarrage à froid classique.
Cette publication s'inscrit dans une course plus large à l'efficacité opérationnelle des infrastructures LLM en production. Kubernetes est devenu le standard de facto pour orchestrer les déploiements d'inférence à grande échelle, mais ses primitives natives de scaling (HPA, KEDA) se heurtent au goulot d'étranglement structurel du cold start GPU. NVIDIA a choisi une approche DaemonSet plutôt que de s'appuyer sur le support natif checkpoint/restore de Kubernetes pour trois raisons : portabilité totale sans dépendance aux feature gates des cloud providers, contrôle fin sur l'état CUDA que les mécanismes standard n'exposent pas, et compatibilité immédiate avec les clusters existants. Le projet Dynamo, dont Snapshot est un composant, représente l'investissement de NVIDIA dans la couche logicielle d'inférence distribuée, un enjeu stratégique alors que la concurrence entre fournisseurs de frameworks (vLLM, TensorRT-LLM, SGLang) s'intensifie autour de la performance au token près.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



