DeepSeek publie en open source DSpark, un framework qui accélère l'inférence des LLM jusqu'à 85%
DeepSeek a publié ce week-end DSpark, un nouveau système open source sous licence MIT conçu pour accélérer significativement l'inférence des grands modèles de langage. Le framework repose sur une technique appelée décodage spéculatif : un petit module "brouillon" anticipe plusieurs tokens à l'avance, tandis que le modèle principal valide ou invalide ces prédictions en une seule passe. Lorsque les prédictions sont bonnes, le modèle avance beaucoup plus vite ; lorsqu'elles sont mauvaises, DSpark évite de gaspiller des ressources à les vérifier. DeepSeek a rendu publics le code source sur GitHub et Hugging Face, un article technique détaillant la méthode, les checkpoints des modèles, ainsi que DeepSpec, une base de code dédiée à l'entraînement et à l'évaluation de systèmes de décodage spéculatif. Le framework a été testé en production sur DeepSeek-V4-Flash, un modèle mixture-of-experts de 284 milliards de paramètres avec 13 milliards de paramètres actifs, et sur DeepSeek-V4-Pro, le modèle phare de 1,6 billion de paramètres avec 49 milliards de paramètres actifs, les deux supportant des fenêtres de contexte allant jusqu'à un million de tokens.
Les chiffres publiés par DeepSeek sont substantiels. En production, DSpark améliore le débit global de 51% pour V4-Flash et de 52% pour V4-Pro à des cibles de service réalistes (respectivement 80 et 35 tokens par seconde par utilisateur). À capacité système équivalente, la vitesse de génération perçue par chaque utilisateur individuel augmente de 60 à 85% pour V4-Flash et de 57 à 78% pour V4-Pro par rapport à la baseline MTP-1 précédente. Ces gains concernent directement l'expérience utilisateur dans les cas d'usage les plus exigeants : chatbots grand public, assistants de code, workflows agentiques et systèmes d'entreprise où la fluidité des réponses longues est critique pour l'adoption. Réduire la latence d'inférence sans modifier les sorties du modèle est l'un des problèmes les plus coûteux de l'industrie IA, car il conditionne directement l'économie du déploiement à grande échelle.
DSpark n'est pas conçu comme une solution réservée aux modèles DeepSeek. Les checkpoints publiés couvrent d'autres familles de modèles open source, notamment Qwen d'Alibaba et Gemma de Google, ouvrant la porte à des adaptations par des équipes tierces qui contrôlent leurs propres poids et infrastructure de déploiement. Cette publication intervient dans un contexte géopolitique tendu, alors que le gouvernement américain cherche à limiter l'accès aux modèles d'Anthropic et OpenAI sur certains marchés. DeepSeek, qui avait déjà bouleversé les références de l'industrie début 2025 avec ses modèles R1 et V3, confirme avec DSpark une stratégie délibérée d'open source agressif qui redistribue les capacités technologiques à l'échelle mondiale, indépendamment des restrictions diplomatiques.
Les équipes européennes déployant des LLM open source (Qwen, Gemma) peuvent améliorer leur débit d'inférence de 50 à 85% sans modifier les sorties des modèles, réduisant les coûts d'infrastructure et renforçant l'indépendance vis-à-vis des solutions propriétaires américaines.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



