DeepSeek publie DSpark, un framework de décodage spéculatif qui accélère la génération par utilisateur de DeepSeek-V4 de 60 à 85 % par rapport à MTP-1
DeepSeek a publié DSpark, un cadre de décodage spéculatif conçu pour accélérer l'inférence de ses grands modèles en production, accompagné de checkpoints open-source et du code d'entraînement DeepSpec sous licence MIT. DSpark n'est pas un nouveau modèle : il s'agit d'une optimisation de service qui s'appuie sur les poids existants de DeepSeek-V4, auxquels est greffé un module de brouillon. Deux checkpoints sont disponibles, DeepSeek-V4-Pro-DSpark et DeepSeek-V4-Flash-DSpark, et les résultats annoncés sont significatifs : en production, la génération par utilisateur est 60 à 85 % plus rapide que la baseline MTP-1, sans aucune perte de qualité sur les sorties. En conditions hors ligne, la longueur acceptée par cycle dépasse Eagle3 de 26 à 31 %, et DFlash de 16 à 18 %.
DSpark tire sa performance d'une architecture hybride qui résout un problème connu du décodage spéculatif : les systèmes parallèles sont rapides mais génèrent des tokens sans tenir compte des voisins, ce qui entraîne une dégradation rapide des acceptations en fin de bloc. DSpark combine un backbone parallèle lourd, basé sur DFlash, qui produit des logits de base pour chaque position, avec une tête séquentielle légère qui ajoute un biais dépendant du préfixe avant l'échantillonnage. Cette tête de Markov, factorisée en rang 256, ne regarde que le token précédent, mais suffit à maintenir un taux d'acceptation élevé sur l'ensemble du bloc. Un mécanisme de vérification à confiance calibrée complète le système : une tête de confiance estime la probabilité qu'un token survive à la vérification, tandis qu'un planificateur adapte dynamiquement la longueur de vérification selon la charge GPU, vérifiant davantage de tokens quand les ressources sont libres et moins quand elles sont saturées.
Le décodage spéculatif est devenu l'un des axes majeurs d'optimisation de l'inférence LLM à grande échelle, notamment depuis la montée en charge de services comme ChatGPT ou Claude, où la latence perçue par utilisateur devient un différenciateur clé. DeepSeek, acteur chinois qui a bousculé le marché début 2025 avec des modèles très compétitifs à faible coût, continue ici de publier ses travaux en open source, une stratégie qui lui permet d'influencer les pratiques de la communauté tout en consolidant sa réputation technique. La mise à disposition de DeepSpec, le code d'entraînement et d'évaluation des brouilleurs, facilitera l'adoption de ces techniques par d'autres équipes. La prochaine étape naturelle sera de voir si ces gains se transfèrent à d'autres architectures de la famille V4, ou si des tiers parviennent à adapter DSpark à leurs propres modèles.
Les équipes européennes travaillant sur l'inférence LLM à grande échelle peuvent adopter DSpark et DeepSpec (licence MIT) pour réduire la latence de leurs propres déploiements, sans impact réglementaire ou commercial direct sur la France ou l'UE.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




