Aller au contenu principal
LLMsVentureBeat AI8h· 2 min de lecture

DeepSeek publie en open source DSpark, un framework qui accélère l'inférence des LLM jusqu'à 85%

Source originale ↗·

DeepSeek a publié ce week-end DSpark, un nouveau système open source sous licence MIT conçu pour accélérer significativement l'inférence des grands modèles de langage. Le framework repose sur une technique appelée décodage spéculatif : un petit module "brouillon" anticipe plusieurs tokens à l'avance, tandis que le modèle principal valide ou invalide ces prédictions en une seule passe. Lorsque les prédictions sont bonnes, le modèle avance beaucoup plus vite ; lorsqu'elles sont mauvaises, DSpark évite de gaspiller des ressources à les vérifier. DeepSeek a rendu publics le code source sur GitHub et Hugging Face, un article technique détaillant la méthode, les checkpoints des modèles, ainsi que DeepSpec, une base de code dédiée à l'entraînement et à l'évaluation de systèmes de décodage spéculatif. Le framework a été testé en production sur DeepSeek-V4-Flash, un modèle mixture-of-experts de 284 milliards de paramètres avec 13 milliards de paramètres actifs, et sur DeepSeek-V4-Pro, le modèle phare de 1,6 billion de paramètres avec 49 milliards de paramètres actifs, les deux supportant des fenêtres de contexte allant jusqu'à un million de tokens.

Les chiffres publiés par DeepSeek sont substantiels. En production, DSpark améliore le débit global de 51% pour V4-Flash et de 52% pour V4-Pro à des cibles de service réalistes (respectivement 80 et 35 tokens par seconde par utilisateur). À capacité système équivalente, la vitesse de génération perçue par chaque utilisateur individuel augmente de 60 à 85% pour V4-Flash et de 57 à 78% pour V4-Pro par rapport à la baseline MTP-1 précédente. Ces gains concernent directement l'expérience utilisateur dans les cas d'usage les plus exigeants : chatbots grand public, assistants de code, workflows agentiques et systèmes d'entreprise où la fluidité des réponses longues est critique pour l'adoption. Réduire la latence d'inférence sans modifier les sorties du modèle est l'un des problèmes les plus coûteux de l'industrie IA, car il conditionne directement l'économie du déploiement à grande échelle.

DSpark n'est pas conçu comme une solution réservée aux modèles DeepSeek. Les checkpoints publiés couvrent d'autres familles de modèles open source, notamment Qwen d'Alibaba et Gemma de Google, ouvrant la porte à des adaptations par des équipes tierces qui contrôlent leurs propres poids et infrastructure de déploiement. Cette publication intervient dans un contexte géopolitique tendu, alors que le gouvernement américain cherche à limiter l'accès aux modèles d'Anthropic et OpenAI sur certains marchés. DeepSeek, qui avait déjà bouleversé les références de l'industrie début 2025 avec ses modèles R1 et V3, confirme avec DSpark une stratégie délibérée d'open source agressif qui redistribue les capacités technologiques à l'échelle mondiale, indépendamment des restrictions diplomatiques.

Impact France/UE

Les équipes européennes déployant des LLM open source (Qwen, Gemma) peuvent améliorer leur débit d'inférence de 50 à 85% sans modifier les sorties des modèles, réduisant les coûts d'infrastructure et renforçant l'indépendance vis-à-vis des solutions propriétaires américaines.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DeepSeek publie DSpark, un framework de décodage spéculatif qui accélère la génération par utilisateur de DeepSeek-V4 de 60 à 85 % par rapport à MTP-1
1MarkTechPost 

DeepSeek publie DSpark, un framework de décodage spéculatif qui accélère la génération par utilisateur de DeepSeek-V4 de 60 à 85 % par rapport à MTP-1

DeepSeek a publié DSpark, un cadre de décodage spéculatif conçu pour accélérer l'inférence de ses grands modèles en production, accompagné de checkpoints open-source et du code d'entraînement DeepSpec sous licence MIT. DSpark n'est pas un nouveau modèle : il s'agit d'une optimisation de service qui s'appuie sur les poids existants de DeepSeek-V4, auxquels est greffé un module de brouillon. Deux checkpoints sont disponibles, DeepSeek-V4-Pro-DSpark et DeepSeek-V4-Flash-DSpark, et les résultats annoncés sont significatifs : en production, la génération par utilisateur est 60 à 85 % plus rapide que la baseline MTP-1, sans aucune perte de qualité sur les sorties. En conditions hors ligne, la longueur acceptée par cycle dépasse Eagle3 de 26 à 31 %, et DFlash de 16 à 18 %. DSpark tire sa performance d'une architecture hybride qui résout un problème connu du décodage spéculatif : les systèmes parallèles sont rapides mais génèrent des tokens sans tenir compte des voisins, ce qui entraîne une dégradation rapide des acceptations en fin de bloc. DSpark combine un backbone parallèle lourd, basé sur DFlash, qui produit des logits de base pour chaque position, avec une tête séquentielle légère qui ajoute un biais dépendant du préfixe avant l'échantillonnage. Cette tête de Markov, factorisée en rang 256, ne regarde que le token précédent, mais suffit à maintenir un taux d'acceptation élevé sur l'ensemble du bloc. Un mécanisme de vérification à confiance calibrée complète le système : une tête de confiance estime la probabilité qu'un token survive à la vérification, tandis qu'un planificateur adapte dynamiquement la longueur de vérification selon la charge GPU, vérifiant davantage de tokens quand les ressources sont libres et moins quand elles sont saturées. Le décodage spéculatif est devenu l'un des axes majeurs d'optimisation de l'inférence LLM à grande échelle, notamment depuis la montée en charge de services comme ChatGPT ou Claude, où la latence perçue par utilisateur devient un différenciateur clé. DeepSeek, acteur chinois qui a bousculé le marché début 2025 avec des modèles très compétitifs à faible coût, continue ici de publier ses travaux en open source, une stratégie qui lui permet d'influencer les pratiques de la communauté tout en consolidant sa réputation technique. La mise à disposition de DeepSpec, le code d'entraînement et d'évaluation des brouilleurs, facilitera l'adoption de ces techniques par d'autres équipes. La prochaine étape naturelle sera de voir si ces gains se transfèrent à d'autres architectures de la famille V4, ou si des tiers parviennent à adapter DSpark à leurs propres modèles.

UELes équipes européennes travaillant sur l'inférence LLM à grande échelle peuvent adopter DSpark et DeepSpec (licence MIT) pour réduire la latence de leurs propres déploiements, sans impact réglementaire ou commercial direct sur la France ou l'UE.

💬 60 à 85 % de gain de latence sans dégradation, c'est pas du bruit, c'est le genre de chiffre qui change une décision d'architecture. Ce que DeepSeek est en train de bâtir, c'est moins une avance technique qu'un standard de facto sur l'inférence open source : en livrant toute la plomberie sous MIT (code d'entraînement, checkpoints, méthode), ils s'assurent que tout l'écosystème converge vers leurs pratiques. Une stratégie d'influence plus rentable que de gagner des benchmarks.

LLMsOutil
1 source
Cohere publie en open source un agent de code fonctionnant sur un seul H100
2VentureBeat AI 

Cohere publie en open source un agent de code fonctionnant sur un seul H100

Cohere a lancé mardi North Mini Code, un modèle de codage agentique open source de 30 milliards de paramètres au format mixture-of-experts (MoE), avec seulement 3 milliards de paramètres actifs par token. Disponible sur Hugging Face sous licence Apache 2.0, il supporte une fenêtre de contexte de 256 000 tokens et une génération maximale de 64 000 tokens. Sa particularité technique : il tourne sur un seul GPU H100, et Nick Frosst, cofondateur de Cohere, l'a même démontré en fonctionnement sur un Mac Studio via MLX avec 20 Go de RAM. Le modèle a été entraîné via deux phases de fine-tuning supervisé suivies d'apprentissage par renforcement sur plus de 70 000 tâches vérifiables issues d'environ 5 000 dépôts, dédupliqués par rapport à SWE-Bench. Cohere revendique des performances supérieures aux modèles open source jusqu'à quatre fois plus grands, dont des modèles à 120 milliards de paramètres. North Mini Code représente une alternative concrète aux modèles propriétaires pour les équipes d'ingénierie qui veulent déployer des pipelines de codage agentique en interne, sans dépendre d'API externes. Le modèle gère l'orchestration de sous-agents, la cartographie d'architecture, la revue de code sur de larges bases de code multi-fichiers et le travail en environnement terminal. Selon les mesures indépendantes d'Artificial Analysis, il atteint 210 tokens par seconde avec un temps au premier token de 0,25 seconde, contre une médiane de 1,95 seconde pour sa catégorie. Face à Mistral Devstral Small 2 (24 milliards de paramètres dense), Cohere revendique un débit de sortie 2,8 fois supérieur et une latence inter-token réduite de 30 % dans des conditions matérielles identiques. Ces chiffres positionnent le modèle comme une option sérieuse pour des charges de production à volume élevé. Il existe néanmoins un point de vigilance notable : lors des tests de l'Intelligence Index d'Artificial Analysis, North Mini Code a généré 75 millions de tokens en sortie pour compléter l'évaluation, contre une médiane de 25 millions pour les modèles comparables. Cette verbosité excessive peut tripler les coûts d'inférence dans des pipelines agentiques intensifs, là où chaque appel enchaîne plusieurs étapes. Cohere a par ailleurs entraîné le modèle sur trois scaffolds d'agents distincts (SWE-Agent, Mini-SWE-Agent et OpenCode) plutôt qu'un seul, gagnant 10 points de pourcentage sur l'évaluation OpenCode tout en maintenant les performances sur SWE-Agent. Le modèle s'inscrit dans un marché en rapide consolidation face à GitHub Copilot, Cursor et les derniers modèles Mistral, où la capacité à s'auto-héberger sur du matériel standard devient un avantage différenciant majeur pour les entreprises soucieuses de contrôle et de coût.

UELe modèle open source sous licence Apache 2.0 offre aux équipes d'ingénierie européennes une option concrète d'auto-hébergement pour des pipelines de codage agentique, réduisant la dépendance aux API propriétaires américaines dans un contexte de sensibilité croissante à la souveraineté des données.

LLMsOpinion
1 source
3MarkTechPost 

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai. Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6). Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

UELa disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

LLMsActu
1 source
DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement
4MarkTechPost 

DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement

DeepReinforce a publié Ornith-1.0, une famille de modèles open source conçue pour les agents de programmation autonomes. La gamme comprend quatre variantes : 9B dense, 31B dense, 35B en architecture mixture-of-experts (MoE), et un modèle flagship à 397B de paramètres, dont le 35B n'active qu'environ 3 milliards de paramètres par token en pratique. Tous les checkpoints sont publiés sous licence MIT sur Hugging Face et s'appuient sur un post-entraînement des modèles Gemma 4 de Google et Qwen 3.5 d'Alibaba. Le modèle 9B pèse environ 19 Go en bf16 et tourne sur un seul GPU de 80 Go, tandis que des versions FP8 et GGUF sont disponibles pour un déploiement local plus rapide. Les modèles exposent une interface compatible OpenAI, ce qui les rend compatibles sans modification avec les frameworks d'agents existants comme vLLM ou SGLang. Ce qui distingue Ornith-1.0 des autres modèles de codage, c'est son architecture d'apprentissage : au lieu d'être couplés à un harnais fixe et conçu à la main par des ingénieurs, ces modèles apprennent à écrire leur propre scaffold pendant la phase d'entraînement par renforcement, optimisant simultanément la logique d'orchestration et la solution au problème. DeepReinforce revendique des résultats à l'état de l'art parmi les modèles open source de taille comparable. Le flagship 397B surpasse Claude Opus 4.7 d'Anthropic sur les deux principaux benchmarks de codage, bien qu'il reste en retrait face à Claude Opus 4.8 et au GLM-5.2-744B de Zhipu AI. Pour les équipes qui cherchent une alternative open source aux modèles propriétaires sur des tâches d'agents complexes, Ornith-1.0 représente un saut qualitatif notable, avec une chaîne de déploiement suffisamment simple pour une adoption rapide. L'approche soulève néanmoins des questions sur la sécurité du système : un modèle capable de modifier son propre harnais pourrait théoriquement tenter de contourner les mécanismes de vérification pour maximiser sa récompense, phénomène connu sous le nom de reward hacking. DeepReinforce décrit trois couches de défense : une frontière de confiance fixe qui rend l'environnement et les tests inaccessibles au modèle, un moniteur déterministe basé sur des règles qui attribue un reward nul à tout comportement non sanctionné, et un juge LLM gelé qui agit comme veto sur le vérificateur principal. Cette publication s'inscrit dans une tendance plus large où les laboratoires de recherche indépendants, souvent bien moins dotés qu'OpenAI ou Google, misent sur l'open source et l'innovation architecturale pour se différencier. La compatibilité MIT et la disponibilité immédiate sur Hugging Face pourraient accélérer l'adoption dans les environnements d'entreprise où la souveraineté des données prime.

UELes entreprises européennes soucieuses de souveraineté des données peuvent auto-héberger Ornith-1.0 sous licence MIT comme alternative aux modèles propriétaires américains, sans dépendance à une API tierce.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic