Aller au contenu principal
DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend
LLMsLatent Space4sem

DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

DeepSeek a publié les 23 et 24 avril 2026 deux nouveaux modèles d'intelligence artificielle, DeepSeek V4 Pro et DeepSeek V4 Flash, marquant la première mise à jour majeure de l'architecture depuis DeepSeek V3 en décembre 2024 et DeepSeek R1 en janvier 2025. Le modèle phare, V4 Pro, embarque 1 600 milliards de paramètres au total dont 49 milliards actifs simultanément via une architecture de type Mixture of Experts (MoE), tandis que V4 Flash reste plus compact avec 284 milliards de paramètres et 13 milliards actifs. Les deux modèles ont été entraînés sur 32 à 33 000 milliards de tokens en précision FP4 et atteignent une fenêtre contextuelle d'un million de tokens, contre 128 000 pour V3.2. DeepSeek a publié sous licence MIT à la fois les versions Base et Instruct, et livre un rapport technique de 58 pages salué par de nombreux chercheurs comme l'un des mieux documentés de l'année.

Cette publication représente une avancée significative pour l'écosystème des modèles open-weights. V4 Pro se classe autour de la deuxième position parmi les modèles à poids ouverts, dans une fourchette comparable à Kimi K2.6 et GLM-5.1, et rivalise selon les benchmarks avec des modèles fermés de la gamme Claude Sonnet à Opus. La fenêtre d'un million de tokens, rendue possible par deux nouvelles techniques maison nommées Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA), est l'élément le plus commenté : à cette longueur, le modèle ne consomme que 27 % des opérations flottantes et 10 % de la mémoire KV cache comparé à DeepSeek V3.2. Les performances en codage agentique et en traitement de documents longs sont particulièrement relevées. La licence MIT et la publication des poids de base ouvrent par ailleurs la voie à des variantes spécialisées et, potentiellement, à un futur DeepSeek R2 orienté raisonnement.

La sortie intervient dans un contexte géopolitique tendu autour des semi-conducteurs. DeepSeek a conçu V4 pour fonctionner sur les puces Huawei Ascend via la pile CANN, réduisant explicitement sa dépendance aux GPU Nvidia soumis aux restrictions américaines à l'export. Une étape symbolique forte : les Ascend représentent encore environ un quart des volumes d'H100, mais leur compatibilité avec un modèle de cette envergure signale une trajectoire vers une autonomie technologique chinoise complète. Sur le plan technique, le rapport documente aussi l'intégration de Muon, l'optimiseur développé par Moonshot, ainsi que des hyper-connexions contraintes par variété (mHC), publiées en janvier 2025. La complexité architecturale du modèle suscite un débat dans la communauté : certains chercheurs estiment que peu de laboratoires ouverts disposent des moyens pour reproduire ou affiner une telle infrastructure, relativisant ainsi la portée réelle de la "démocratisation" annoncée.

Impact France/UE

La compatibilité avec les puces Huawei Ascend illustre la trajectoire vers l'autonomie technologique chinoise, renforçant indirectement les débats européens sur la souveraineté numérique et la dépendance aux semi-conducteurs américains.

💬 Le point de vue du dev

Le million de tokens à 10% du cache de V3.2, ça c'est de l'ingénierie sérieuse. Mais le signal fort, c'est la compatibilité Huawei Ascend : DeepSeek documente explicitement sa sortie des GPU Nvidia, et un modèle de cette taille qui tourne sur CANN, c'est pas symbolique, c'est structurel. La licence MIT fait briller les yeux, mais reproduire 1,6T de paramètres, c'est une autre conversation.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DeepSeek : dernière avancée en IA et la course aux modèles du monde
1MIT Technology Review 

DeepSeek : dernière avancée en IA et la course aux modèles du monde

La firme chinoise DeepSeek a publié vendredi un aperçu de son nouveau modèle phare, V4, suscitant immédiatement l'attention de l'industrie. Cette version se distingue par sa capacité à traiter des contextes bien plus longs que la génération précédente, grâce à une architecture repensée pour gérer de grands volumes de texte avec une meilleure efficacité. Malgré son statut open source, ses performances se mesurent à celles des modèles propriétaires d'Anthropic, d'OpenAI et de Google. Point stratégique notable : V4 est la première release de DeepSeek optimisée pour les puces Ascend de Huawei, signalant un test grandeur nature de la capacité de la Chine à réduire sa dépendance aux GPU Nvidia. Dans le même temps, Google a annoncé un investissement pouvant atteindre 40 milliards de dollars dans Anthropic, dans une opération valorisant la startup à 350 milliards de dollars, signe que la course au calcul et aux modèles de pointe s'accélère des deux côtés du Pacifique. Ces annonces s'inscrivent dans une semaine marquée par des enjeux géopolitiques et industriels majeurs. La Chine a bloqué le projet de rachat par Meta du studio d'IA Manus pour 2 milliards de dollars, invoquant des raisons de sécurité nationale et qualifiant l'opération de tentative "conspiratrice" de vider la base technologique chinoise. Washington réplique en maintenant ses contrôles à l'exportation sur les puces avancées, tandis que le président Trump a licencié l'ensemble du National Science Board, suscitant des craintes sur l'interférence politique dans la recherche fondamentale américaine. Sur le plan économique, la pression sur les capacités de calcul commence à peser sur des secteurs entiers : emplois, prix de l'électricité et marchés de composants sont tous affectés par l'explosion de la demande en infrastructure IA. En parallèle, un autre front s'ouvre dans la recherche fondamentale : celui des "world models", ces systèmes capables de modéliser le monde physique plutôt que le seul domaine textuel. Des figures comme la professeure de Stanford Fei-Fei Li et Yann LeCun, fondateur d'AMI Labs, défendent l'idée que ces modèles sont indispensables pour dépasser les limites connues des grands modèles de langage et permettre de véritables avancées en robotique. Composer un roman ou générer du code reste infiniment plus simple pour une machine que de plier du linge ou naviguer dans une rue bondée ; les world models ambitionnent de combler cet écart. Ce sujet figure en tête de la liste des dix technologies prioritaires établie par le MIT Technology Review, signe que l'industrie considère désormais cette direction comme l'un des prochains fronts décisifs de l'intelligence artificielle.

UEL'optimisation de DeepSeek V4 sur les puces Huawei Ascend offre aux entreprises européennes une alternative open source aux modèles propriétaires américains, tandis que l'escalade de la guerre technologique sino-américaine sur les puces et les contrôles à l'exportation contraint l'Europe à clarifier son positionnement stratégique dans la course mondiale à l'IA.

LLMsActu
1 source
L'IA à base d'agents pousse les prix à la hausse, Deepseek sort un modèle compétitif pour presque rien
2The Decoder 

L'IA à base d'agents pousse les prix à la hausse, Deepseek sort un modèle compétitif pour presque rien

Le laboratoire chinois Deepseek a lancé deux nouveaux modèles, V4-Pro et V4-Flash, dotés d'une architecture pouvant atteindre 1 600 milliards de paramètres et d'une fenêtre de contexte d'un million de tokens. La sortie s'accompagne d'un article technique détaillant les choix d'entraînement, les techniques de distillation et le matériel utilisé. Les tarifs annoncés se situent très nettement en dessous de ceux pratiqués par OpenAI, Google et Anthropic, confirmant la stratégie agressive de Deepseek sur le marché des API. Cette annonce intervient dans un contexte où les grands acteurs occidentaux font l'inverse : face à l'explosion des usages agentiques, OpenAI et Anthropic ont récemment revu leurs prix à la hausse et imposé des plafonds de consommation sur certains modèles. Deepseek propose une alternative performante à une fraction du coût, ce qui représente une pression directe sur les marges et les modèles économiques des leaders du secteur. Pour les développeurs et les entreprises qui cherchent à déployer des agents autonomes à grande échelle, l'équation coût-performance devient difficile à ignorer. Deepseek s'est imposé depuis début 2025 comme l'un des acteurs les plus disruptifs du marché mondial des LLM, en montrant qu'il est possible d'obtenir des résultats compétitifs avec des budgets d'entraînement bien inférieurs à ceux de ses concurrents américains. La publication du papier technique accompagnant V4-Pro et V4-Flash s'inscrit dans cette logique de transparence qui renforce la crédibilité du laboratoire et alimente le débat sur l'avantage réel des géants du cloud face à une concurrence ouverte et low-cost.

UELes développeurs et entreprises européens déployant des agents autonomes peuvent réduire significativement leurs coûts d'API en adoptant DeepSeek V4-Pro/V4-Flash, remettant en question l'équation coût-performance avec leurs fournisseurs actuels.

LLMsOpinion
1 source
Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte
3MIT Technology Review 

Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte

DeepSeek a publié vendredi une version préliminaire de V4, son nouveau modèle phare attendu depuis plusieurs mois. Disponible en open source, le modèle se décline en deux versions : V4-Pro, conçu pour le code et les tâches d'agents complexes, et V4-Flash, plus léger et optimisé pour la vitesse. Sur les principaux benchmarks, V4-Pro rivalise avec les meilleurs modèles fermés du marché, se situant au niveau de Claude Opus de chez Anthropic, de GPT-5 d'OpenAI et de Gemini de Google. Face aux autres modèles open source, notamment Qwen d'Alibaba ou GLM de Z.ai, V4 les surpasse en codage, mathématiques et disciplines scientifiques. L'entreprise rapporte qu'une enquête interne auprès de 85 développeurs expérimentés a montré que plus de 90 % d'entre eux classent V4-Pro parmi leurs premiers choix pour les tâches de programmation. DeepSeek a également optimisé le modèle pour des frameworks d'agents populaires comme Claude Code ou CodeBuddy. Ce qui distingue V4, c'est son rapport performance-prix particulièrement agressif. V4-Pro est facturé 1,74 dollar par million de tokens en entrée et 3,48 dollars en sortie, une fraction du tarif pratiqué par OpenAI ou Anthropic pour des modèles comparables. V4-Flash descend encore plus bas, à 0,14 dollar par million de tokens en entrée et 0,28 dollar en sortie, ce qui en fait l'un des modèles haut de gamme les moins chers du marché. Pour les développeurs et les entreprises, cela signifie un accès à des capacités d'IA frontier sans les coûts habituellement prohibitifs des API propriétaires. Les deux versions intègrent un mode de raisonnement pas à pas, et V4 introduit une nouvelle architecture qui améliore significativement la gestion de longs contextes, ouvrant la voie à des applications sur des documents ou des bases de code entières. Cette sortie intervient dans un contexte particulier pour DeepSeek. La firme de Hangzhou avait provoqué un séisme dans l'industrie en janvier 2025 avec R1, un modèle de raisonnement entraîné avec des ressources limitées qui avait mis en question la suprématie américaine en matière d'IA. Depuis, l'entreprise a traversé des mois difficiles, marqués par des départs de personnels clés, des retards dans ses lancements et une surveillance accrue des gouvernements américain et chinois. V4 constitue son retour sur la scène des modèles frontier, même si l'effet de surprise de R1 ne se reproduira probablement pas. L'enjeu est désormais de confirmer que DeepSeek peut tenir dans la durée face à des adversaires disposant de ressources computationnelles autrement plus importantes, et de s'imposer comme une alternative crédible et pérenne dans un écosystème open source en pleine effervescence.

UELes développeurs et entreprises européennes accèdent à des capacités frontier en open source à des tarifs très inférieurs aux API propriétaires, élargissant concrètement les options pour les startups et PME du continent.

LLMsOpinion
1 source
Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab
4MarkTechPost 

Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab

Google a récemment mis à disposition Gemma 3 1B Instruct, un modèle de langage compact de 1 milliard de paramètres conçu pour être déployé dans des environnements contraints, notamment sur CPU ou GPU grand public. Un tutoriel détaillé publié sur la plateforme AnalyticsVidhya propose un pipeline complet et reproductible pour faire tourner ce modèle directement dans Google Colab, en s'appuyant sur la bibliothèque Hugging Face Transformers (version 4.51.0 minimum), ainsi que sur les outils accelerate, sentencepiece et safetensors. Le workflow couvre l'authentification sécurisée via un token Hugging Face, le chargement du tokenizer et du modèle avec détection automatique du matériel disponible (CUDA ou CPU), et l'utilisation de la précision bfloat16 pour optimiser la mémoire sur GPU. Ce type de guide a une valeur concrète pour les développeurs et data scientists qui souhaitent intégrer des LLM légers dans leurs applications sans recourir à des infrastructures coûteuses. Gemma 3 1B se distingue par sa taille réduite, ce qui le rend accessible à un large éventail de machines, y compris les environnements gratuits de Colab. Le tutoriel ne se limite pas au simple chargement du modèle : il propose des utilitaires réutilisables pour la génération de texte, la mise en forme des prompts en structure de conversation (chat template), et teste le modèle sur des cas d'usage réels — génération libre, réponses structurées au format JSON, chaînage de prompts, benchmarking de vitesse et résumé déterministe. Cette approche orientée production, plutôt que démonstration, répond à un besoin croissant de reproductibilité dans les projets d'IA appliquée. Gemma 3 est la troisième génération de la famille de modèles open-weights de Google DeepMind, lancée début 2025 pour concurrencer des modèles comme Llama 3 de Meta ou Phi-3 de Microsoft sur le segment des LLM légers et locaux. L'écosystème Hugging Face joue ici un rôle central de plateforme de distribution et d'intégration, avec des outils standardisés qui facilitent le passage du prototype à la production. La disponibilité de modèles performants sous 2 milliards de paramètres est un enjeu stratégique : elle permet des déploiements on-device, réduit les coûts d'inférence et ouvre la voie à des applications embarquées ou hors-ligne. Les prochaines étapes naturelles de ce type de pipeline incluent le fine-tuning sur données propriétaires, le déploiement via une API FastAPI ou Gradio, et l'intégration dans des workflows RAG (retrieval-augmented generation).

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour