Aller au contenu principal

DeepSeek V4· sujet

19 articlesmis à jour le 2026-05-06

DeepSeek V4 Pro et Flash : architecture MoE 1,6T paramètres, fenêtre 1M tokens, compatibilité puces Huawei Ascend, licence MIT.

Hub d'actualité sur DeepSeek V4, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

DeepSeek V4 est le modèle qui a fait basculer la grille tarifaire IA en avril 2026. Sortie le 24 avril, deux variantes : V4-Pro (1,6 trillion de paramètres MoE, 49 milliards actifs) qui rivalise avec Claude Opus 4.7 et GPT-5.5 ; V4-Flash (284 milliards MoE, 13 milliards actifs) qui couvre 80 % des cas d'usage agentique à 0,42 dollar par million de tokens combiné — soit 83× moins cher que GPT-5.5.

Pour la couverture stratégie d'entreprise + géopolitique, voir le hub DeepSeek complet. Ce hub-ci est dédié à la version V4 spécifiquement : architecture MoE, compatibilité matérielle, licences, choix de déploiement.

V4 est sortie avec une promotion temporaire de -75 % sur V4-Pro qui expire le 31 mai 2026. Cette promo crée une apparente fenêtre de fragilité, mais le vrai signal est ailleurs : V4-Flash, à 0,42 $/M tokens combiné, n'a pas de date d'expiration. C'est la grille structurelle qui restera. Le « 97 % moins cher que GPT-5.5 » qui a circulé largement mélange en réalité ces deux régimes — précision documentée dans l'analyse La rupture DeepSeek.

Sur l'architecture, V4 est techniquement remarquable : MoE éclaté à 256 experts spécialisés (V4-Pro), routing learned via gating network, fenêtre 1M tokens en attention native (pas de RAG hack), compression dépendance Huawei Ascend / NVIDIA permise nativement. C'est le premier modèle frontière complet sous licence MIT.

Pourquoi DeepSeek V4 compte

V4 compte parce que c'est le premier modèle frontière en open-weight (licence MIT) qui supporte officiellement les puces Huawei Ascend en plus de NVIDIA. C'est-à-dire : pour la première fois, une stack frontière complète peut tourner hors écosystème américain. Pour les administrations chinoises, les entreprises sous embargo, les laboratoires souverainistes européens, c'est un point de bascule.

L'autre angle structurant : V4-Flash. Avec 284 milliards de paramètres MoE et 13 milliards actifs, le modèle compact reste largement suffisant pour la plupart des tâches agentiques. À 0,42 $/M tokens combiné sans promo, il transforme l'arbitrage pricing : on n'est plus dans une discussion premium, on est dans une discussion commodité.

L'effet ricochet sur les autres acteurs est documenté. NVIDIA a accéléré son partenariat OpenAI sur le coût par jeton (« 35× moins cher » annoncé fin avril). Anthropic a accéléré la sortie d'Opus 4.7 et a reconnu publiquement la « pression compétitive » dans une note investisseurs. Google a baissé Gemini Flash. Cohere/Aleph Alpha a été contraint à la consolidation. Le marché est passé en deux semaines d'« optimisation pricing » à « guerre des prix structurelle ».

Chronologie

  1. Janv 2025DeepSeek-R1 démontre la faisabilité d'un raisonnement open-weight competitive — étape pré-V4
  2. Mi-2025DeepSeek-V3 (671B-A37B) consolidait l'architecture MoE de V4
  3. Mar 2026Premières fuites sur les benchmarks internes V4 — l'industrie s'attend à un choc tarifaire
  4. 24 avr 2026DeepSeek-V4 dévoilé : performances proches de Claude Opus 4.7 pour 1/6e du coût
  5. 24 avr 2026Variante V4 explicitement positionnée « 7× moins cher que Claude Opus 4.7 » par les analystes chinois
  6. 25 avr 2026V4 Pro (1,6T-A49B) et Flash (284B-A13B) en Base et Instruct, compatibles Huawei Ascend, licence MIT
  7. 26 avr 2026DeepSeek divise par 10 le tarif de cache d'entrée sur l'ensemble de la gamme V4
  8. 27 avr 2026Promotion -75 % sur V4-Pro prolongée jusqu'au 31 mai 2026 (la grille V4-Flash, elle, n'a pas de date d'expiration)
  9. 28 avr 2026« 97 % moins cher que GPT-5.5 » — la formulation chiffrée la plus propre du choc
  10. 29 avr 2026NVIDIA + OpenAI annonce un partenariat coût par jeton « 35× moins cher » en réponse à V4
  11. 5 mai 2026V4-Flash devient le défaut sur plusieurs déploiements souverains européens (administrations + recherche)

Cinq articles essentiels

Sélection éditoriale. Ces cinq pièces couvrent les angles les plus utiles pour comprendre DeepSeek V4 en 2026.

  1. Le récit du lancement V4 : performances proches d'Opus 4.7 pour 1/6e du coût.

  2. V4-Pro 1,6T-A49B et V4-Flash 284B-A13B compatibles Huawei Ascend : la dimension hardware souveraine.

  3. DeepSeek établit un nouveau plancher tarifaire pour les grands modèles : la baisse permanente vs la promo expirable.

  4. « 90 % moins cher » : la formulation qui a circulé largement, mais qui mélange baisse permanente + promo temporaire.

  5. GPT-5.5 vs DeepSeek V4 : qui va dominer ? L'angle compétition technique au moment du lancement.

  6. Cohere rachète Aleph Alpha le 27 avril : la consolidation européenne forcée par la pression V4.

Analyses long-form sur DeepSeek V4

Quand un sujet mérite un format long, c'est ici.

Questions fréquentes

V4-Pro ou V4-Flash : lequel choisir ?

V4-Flash pour 80 % des cas d'usage agentique (extraction de données, génération de code de routine, traitement documents longs grâce à la fenêtre 1M tokens). V4-Pro pour les tâches complexes : analyse stratégique multi-document, raisonnement chaîné, code complexe. La différence de prix est significative (V4-Flash 0,42 $/M tokens combiné vs V4-Pro plusieurs dollars).

DeepSeek V4 fonctionne sur quelles puces ?

NVIDIA H100, H200, Blackwell pour la pleine performance. Compatibilité Huawei Ascend confirmée pour V4-Pro et V4-Flash. Cette double compatibilité est l'une des clés stratégiques : déployable en environnement US, sous embargo chinois, ou en environnement souverain européen selon le besoin. Compatibilité AMD MI300/MI325 prévue Q3 2026.

Comment télécharger V4 ?

Les poids sont publics sous licence MIT sur Hugging Face (DeepSeek-V4-Pro et DeepSeek-V4-Flash, en versions Base et Instruct). Téléchargeables sans licence commerciale, déployables en self-hosted. L'API publique (deepseek.com) est aussi disponible avec des tarifs cassés. Les répliques locales (Mistral, Microsoft, IBM) ont commencé à intégrer V4 dans leurs offres dès le 28 avril.

Quelle est la fenêtre de contexte de V4 ?

1 million de tokens, soit environ 750 000 mots. C'est suffisant pour traiter un livre complet, une codebase moyenne, ou un dossier juridique d'un millier de pages en une seule passe. Performance équivalente à Gemini 1.5 Pro et largement supérieure à Claude Opus 4.7 (200K tokens) et GPT-5.5 (256K tokens). Attention native (pas de RAG hack), ce qui maintient la qualité sur les tâches multi-document.

V4 est-elle sûre en production enterprise ?

Oui pour les usages standards. Pour les usages sensibles : la licence MIT permet l'audit complet du modèle, le déploiement self-hosted (datacenter privé) garde les données dedans. Côté safety : V4 a passé les audits de l'AISI britannique et a été ajoutée au benchmark cybersécurité offensive avec un score inférieur à GPT-5.5 et Mythos — ce qui la rend déployable enterprise sans concerns equivalents à GPT-5.5-Cyber.

Le 31 mai 2026 V4 disparaît-elle ?

Non, c'est un mythe. Ce qui expire le 31 mai 2026, c'est la promotion -75 % sur V4-Pro. La grille structurelle V4-Flash (0,42 $/M tokens combiné) n'a pas de date d'expiration. Le rythme baisse permanent / promo temporaire est documenté en détail dans l'analyse [La rupture DeepSeek](/analyse/rupture-deepseek-31-mai-2026) : trois régimes coexistent, seule la promo de surface disparaît le 31 mai.

Toute l'actualité DeepSeek V4

Flux automatique. Articles classés par pertinence, agrégés en continu.

L'écart se creuse-t-il entre Anthropic et les modèles open source ?
1The Information AI LLMsOpinion

L'écart se creuse-t-il entre Anthropic et les modèles open source ?

La montée en flèche des coûts des modèles d'IA frontier pousse plusieurs développeurs à envisager un repli vers l'open source. Des entreprises aussi sophistiquées qu'Uber ont brûlé l'intégralité de leur budget annuel en IA en quelques mois seulement, un dérapage qui illustre la pression financière que font peser des fournisseurs comme Anthropic et OpenAI. En réponse, Uber et Airbnb auraient déjà commencé à déléguer les tâches les plus simples à des modèles open source moins coûteux, tout en conservant les modèles frontier pour les cas d'usage complexes. Un dirigeant d'une grande entreprise cliente d'OpenAI et d'Anthropic a confié avoir testé Kimi K2.6 de Moonshot AI ainsi que DeepSeek V4, deux modèles open source récents qui affichent des résultats solides sur les benchmarks standards. Le verdict reste mitigé. Si ces modèles s'en sortent correctement sur des questions de surface et des exercices de référence, ils peinent dès que l'interrogation devient plus exigeante. L'exemple donné est parlant : un modèle peut résoudre un casse-tête logique classique, mais échoue dès qu'on modifie légèrement les hypothèses de départ. Cette fragilité dans le raisonnement en profondeur constitue un obstacle réel pour les entreprises dont les cas d'usage requièrent une analyse rigoureuse, des relances pertinentes ou une cohérence sur des chaînes de questions complexes. Le fossé qualitatif entre l'open source et les modèles frontier semble donc persistant, malgré les progrès rapides observés ces derniers mois. L'essor de l'open source n'en reste pas moins une tendance structurelle. Les données du fournisseur d'inférence OpenRouter indiquent une croissance globale de l'utilisation de ces modèles, signe que le marché se segmente progressivement. Les grandes entreprises adoptent une stratégie hybride : modèles bon marché pour le volume, modèles puissants pour la valeur ajoutée. La question centrale devient alors de savoir si des acteurs comme DeepSeek ou Moonshot AI pourront combler l'écart de raisonnement qui les sépare encore d'Anthropic et d'OpenAI, et à quelle vitesse.

UELes entreprises européennes clientes d'Anthropic ou OpenAI font face aux mêmes pressions budgétaires et pourraient adopter la même stratégie hybride open source / frontier pour maîtriser leurs coûts IA.

1 source
L'accord Nvidia H200 avec la Chine a survécu au sommet Trump-Xi, mais pas comme prévu
2AI News 

L'accord Nvidia H200 avec la Chine a survécu au sommet Trump-Xi, mais pas comme prévu

Donald Trump s'est rendu à Pékin en mai 2026, accompagné à la dernière minute de Jensen Huang, PDG de Nvidia, et en est reparti en déclarant que "quelque chose pourrait se passer" sur les exportations de puces. Rien ne s'est passé. Pas un seul H200 de Nvidia n'a été livré en Chine depuis que Trump a autorisé ces ventes en décembre 2025. Le représentant américain au commerce, Jamieson Greer, a confirmé à Bloomberg que les contrôles sur les semi-conducteurs n'étaient même pas à l'ordre du jour bilatéral. En réalité, les licences d'exportation existent déjà : une dizaine d'entreprises chinoises, dont Alibaba, Tencent, ByteDance et JD.com, disposent chacune d'autorisations américaines pour jusqu'à 75 000 unités, avec Lenovo et Foxconn comme distributeurs agréés. Les puces ne bougent pas parce que c'est Pékin qui bloque ses propres entreprises. Le blocage repose sur une contradiction réglementaire structurelle. Les règles américaines exigent que les H200 exportés vers des clients chinois soient déployés uniquement sur le territoire chinois. Pékin, de son côté, a ordonné à ses grandes entreprises tech de réserver leurs achats de puces Nvidia à leurs opérations à l'étranger, tout en soutenant les fournisseurs domestiques. Les deux exigences s'excluent mutuellement : les puces autorisées à l'export ne peuvent légalement être déployées là où Pékin veut les déployer. Ce n'est pas une impasse accidentelle. Le secrétaire au Commerce Howard Lutnick a déclaré devant le Sénat que les firmes chinoises cherchent délibérément à concentrer leurs investissements sur les fournisseurs locaux, au premier rang desquels Huawei. Le Conseil d'État chinois a par ailleurs lancé une revue de la sécurité des chaînes d'approvisionnement visant à réduire la dépendance aux semi-conducteurs américains. Pendant que les diplomates négociaient, les données les plus significatives venaient d'ailleurs. DeepSeek a confirmé que son dernier modèle avait été optimisé pour tourner sur les processeurs Huawei. Le directeur stratégique de Tencent a annoncé que l'offre chinoise en GPU augmenterait progressivement tout au long de 2026, et Alibaba a confirmé que ses GPU propriétaires T-Head étaient désormais en production de masse. En avril, DeepSeek V4 était devenu le premier grand modèle frontier chinois adapté aux puces Ascend de Huawei dès la phase d'entraînement, et non plus seulement pour l'inférence. Le signal est clair : la substitution n'est plus expérimentale, elle est devenue une politique industrielle. Les revenus de Nvidia en Chine sont tombés à environ 5 % ces derniers trimestres, contre plus de 20 % avant le durcissement des contrôles à l'export, et la société anticipe désormais zéro revenu chinois pour le trimestre en cours. La présence de Huang à Pékin illustrait l'urgence ressentie par Nvidia ; son résultat illustre les limites de la diplomatie de PDG face à un blocage structurel.

UEL'impasse sino-américaine sur les GPU Nvidia accélère la montée en puissance d'alternatives chinoises (Huawei Ascend) et rappelle à l'Europe sa propre dépendance aux chaînes d'approvisionnement américaines, renforçant l'urgence de l'European Chips Act.

💬 Jensen Huang à Pékin avec Trump, et au final zéro H200 livré : la mise en scène était parfaite, le résultat nul. Ce qui est frappant, c'est que le blocage ne vient pas de Washington cette fois, ce sont les Chinois eux-mêmes qui freinent leurs propres entreprises pour les forcer vers Huawei. Pendant ce temps, DeepSeek optimisait sur Ascend et Alibaba lançait ses GPU en masse : la substitution n'est plus un plan B, c'est le plan A.

InfrastructureOpinion
1 source
Avancées récentes en architectures LLM : partage KV, mHC et attention compressée
3Ahead of AI 

Avancées récentes en architectures LLM : partage KV, mHC et attention compressée

Depuis début avril 2026, une vague de nouveaux modèles de langage open-weight a déferlé, et une tendance architecturale se dégage clairement : l'efficacité sur les contextes longs. Google a ouvert le bal avec sa suite Gemma 4, déclinée en quatre variantes, les modèles compacts E2B et E4B pour appareils embarqués, un modèle mixte d'experts (MoE) à 26 milliards de paramètres, et un modèle dense à 31 milliards. Dans la foulée, ZAYA1-8B, Laguna XS.2 et DeepSeek V4 ont chacun introduit leurs propres innovations internes. Ce que ces modèles ont en commun, c'est un ensemble de techniques nouvelles pour réduire la taille du KV-cache, le trafic mémoire et le coût du mécanisme d'attention, trois goulots d'étranglement devenus critiques à mesure que les modèles de raisonnement et les agents IA manipulent des séquences de plus en plus longues. Ces innovations architecturales ont des conséquences concrètes sur les coûts d'inférence et les capacités des systèmes déployés en production. Le partage de KV entre couches (cross-layer attention), utilisé dans Gemma 4 E2B et E4B, permet aux couches profondes de réutiliser les états clé-valeur calculés dans les couches précédentes, réduisant ainsi la mémoire nécessaire sur de longs contextes sans entraîner de pertes de qualité majeures. Laguna XS.2 adopte une approche différente, en allouant un budget d'attention variable selon les couches, certaines couches traitent l'intégralité du contexte, d'autres utilisent une fenêtre glissante restreinte. ZAYA1-8B intègre une attention convolutionnelle compressée, tandis que DeepSeek V4 combine une attention multi-head compressée (mHC) avec sa propre variante d'attention compacte. Ces techniques sont présentées comme des ajustements discrets dans les schémas d'architecture, mais représentent en réalité des choix de conception non triviaux avec des implications profondes sur la façon dont les modèles gèrent la mémoire à grande échelle. Ces développements s'inscrivent dans une évolution plus large du domaine : les workflows agentiques et les modèles de raisonnement, qui maintiennent des contextes de plusieurs dizaines de milliers de tokens sur de longues interactions, ont rendu les approches d'attention standard trop coûteuses à opérer efficacement. Le KV-cache, qui stocke les états intermédiaires pour éviter de recalculer l'attention à chaque nouveau token, peut consommer plusieurs gigaoctets de VRAM sur de longs contextes, un problème particulièrement aigu pour les déploiements locaux. Le fait que Google, DeepSeek et des acteurs plus modestes comme ZAYA1 et Laguna convergent tous vers des solutions similaires en quelques semaines suggère que l'optimisation de l'attention est devenue la priorité architecturale centrale de 2026, supplantant la simple course aux paramètres.

UELes modèles open-weight à architecture optimisée (Gemma 4, DeepSeek V4) permettent aux entreprises et institutions européennes de déployer des LLMs efficacement en local, réduisant leur dépendance aux infrastructures cloud américaines.

💬 Le KV-cache qui bouffe plusieurs Go de VRAM sur les longs contextes, c'était devenu le vrai goulot d'étranglement, et là on voit tout le monde arriver aux mêmes conclusions en même temps : Google, DeepSeek, Laguna. Quand des acteurs de cette envergure convergent indépendamment vers les mêmes solutions en quelques semaines, c'est pas du hasard. Ça va changer ce qu'on peut faire tourner en local.

LLMsOpinion
1 source
Les investissements en IA s'accélèrent : Deepseek prépare une levée record et Core Automation quadruple sa valorisation en quelques semaines
4The Decoder 

Les investissements en IA s'accélèrent : Deepseek prépare une levée record et Core Automation quadruple sa valorisation en quelques semaines

Deepseek prépare une levée de fonds pouvant atteindre 7,35 milliards de dollars, ce qui en ferait la plus grande opération jamais réalisée par une entreprise d'IA chinoise. Ce tour de table devrait accompagner le lancement de Deepseek V4.1, prévu pour juin 2026. En parallèle, Core Automation, une startup fondée il y a seulement six semaines par Jerry Tworek, ex-chercheur d'OpenAI, vise déjà une valorisation de 4 milliards de dollars, soit un quadruplement en quelques semaines à peine depuis sa création. Ces deux opérations illustrent l'appétit intact des investisseurs pour l'IA, malgré les interrogations persistantes sur la rentabilité du secteur. Pour Deepseek, ce financement représente un tournant stratégique: l'entreprise chinoise, connue pour avoir sorti des modèles très compétitifs à moindre coût, cherche désormais les ressources nécessaires pour rivaliser à grande échelle avec OpenAI et Google. Pour Core Automation, une valorisation à 4 milliards en moins de deux mois signale que les fondateurs issus des grands labos IA peuvent lever des capitaux considérables avant même d'avoir un produit abouti. Ce contexte s'inscrit dans une course aux financements qui s'est accélérée depuis début 2025, portée par la multiplication des applications d'agents IA autonomes. Le fait que Tworek, qui a travaillé sur Codex chez OpenAI, soit déjà à la tête d'une licorne en gestation reflète la tendance des chercheurs stars à quitter les grandes structures pour lancer leurs propres projets. Du côté chinois, la montée en puissance de Deepseek nourrit les inquiétudes occidentales sur le leadership technologique face à un écosystème IA qui se finance désormais à des niveaux comparables à la Silicon Valley.

UELa montée en puissance financière de Deepseek intensifie la pression concurrentielle sur l'écosystème IA européen, qui peine à mobiliser des financements comparables pour ses propres champions.

💬 Deepseek, c'était la startup frugale qui humiliait les labos américains à moindre coût. La voilà qui prépare la plus grosse levée jamais faite par une boîte IA chinoise, parce que la frugalité a ses limites quand tu veux vraiment jouer dans la cour d'OpenAI. Et Core Automation, six semaines d'existence, pas de produit, 4 milliards de valorisation : le marché paye des CV, pas des boîtes.

BusinessOpinion
1 source
[AINews] Rien de notable aujourd'hui
5Latent Space 

[AINews] Rien de notable aujourd'hui

La journée du 27-28 avril 2026 n'a pas produit de séisme dans l'industrie de l'IA, mais plusieurs sorties de modèles méritent attention. NVIDIA a lancé Nemotron 3 Nano Omni, un modèle multimodal open-source de 30 milliards de paramètres actifs (3B actifs, architecture MoE) capable de traiter texte, images, vidéo, audio et documents, avec une fenêtre de contexte de 256 000 tokens orientée vers les usages agentiques. Sa distribution a été immédiate : OpenRouter, LM Studio, Ollama, Fireworks, Together et une dizaine d'autres plateformes ont annoncé sa disponibilité le jour même. Le modèle intègre un encodeur audio Parakeet, fonctionne pour l'instant uniquement en anglais, et affiche un taux d'erreur de 5,95 % sur le benchmark Open ASR, avec un débit annoncé neuf fois supérieur à des modèles omni comparables. Du côté de Poolside, la startup a publié son premier modèle public, Laguna XS.2, un modèle de code MoE de 33 milliards de paramètres totaux (3B actifs) entraîné intégralement en interne, distribué sous licence Apache 2.0, et conçu pour tourner sur un seul GPU. Microsoft, de son côté, a sorti TRELLIS.2, un modèle open-source de 4 milliards de paramètres pour la génération de scènes 3D texturées à partir d'images, avec une résolution allant jusqu'à 1536 cubes et une compression spatiale 16x. Ces sorties illustrent une tendance de fond : la compétition sur l'efficacité d'inférence s'intensifie, et les acteurs cherchent à démocratiser des capacités avancées sur du matériel accessible. Que Poolside publie un modèle de code haute performance tournant sur un seul GPU, ou que NVIDIA intègre audio et vidéo dans un modèle ouvert, le message est clair : les capacités multimodales et agentiques descendent rapidement vers des configurations matérielles grand public. Pour les développeurs et les entreprises, cela signifie des coûts d'infrastructure moindres pour déployer des agents capables de comprendre des documents complexes ou de générer des assets 3D. En parallèle, l'infrastructure d'inférence connaît sa propre effervescence. La version 0.20.0 de vLLM, framework open-source de référence pour servir les grands modèles, embarque un cache KV 2 bits (TurboQuant) offrant quatre fois plus de capacité, ainsi qu'une amélioration de latence de 2,1 % grâce à une fusion d'opérations. Les benchmarks publiés par SemiAnalysis sur les puces B300 de NVIDIA indiquent un débit jusqu'à huit fois supérieur à celui des H200 pour des charges DeepSeek V4 Pro. Dans ce contexte, des voix techniques soulignent que DeepSeek s'éloigne progressivement de la dépendance exclusive à CUDA via ses TileKernels, ouvrant la voie à des déploiements sur accélérateurs hétérogènes, y compris des puces non-NVIDIA. Les prochaines semaines devraient confirmer si GPT-6, dont le buzz commence à monter, reconfigurera à nouveau les priorités de l'écosystème.

UELes modèles open-source publiés ce jour (Nemotron 3 Nano Omni, Laguna XS.2, TRELLIS.2) sont immédiatement accessibles aux développeurs et entreprises européennes via Ollama, Hugging Face et autres plateformes, réduisant les coûts d'infrastructure pour déployer des agents multimodaux sur du matériel grand public.

LLMsActu
1 source
Bilan IA Avril 2026 : Le Basculement Définitif vers l’IA Agentique et Physique
6Le Big Data 

Bilan IA Avril 2026 : Le Basculement Définitif vers l’IA Agentique et Physique

Avril 2026 restera comme le mois où l'industrie de l'intelligence artificielle a définitivement tourné la page des chatbots. Le 23 avril, OpenAI a lancé GPT-5.5 (nom de code "Spud"), un modèle conçu pour l'ingénierie logicielle en totale autonomie, intégrant une fonction "Thinking" qui optimise ses raisonnements internes pour réduire la consommation de tokens et domine les nouveaux benchmarks agentiques Terminal-Bench 2.0. Le lendemain, DeepSeek a publié les poids de son modèle V4 (1,6 trillion de paramètres) sous licence MIT, compatible avec les puces Huawei Ascend pour contourner les embargos américains, déclenchant une guerre des prix mondiale avec une fenêtre de contexte d'un million de tokens. Meta, rattrapée par un scandale de manipulation de benchmarks sur Llama 4, a abandonné l'open-source et créé les Meta Superintelligence Labs avant de dévoiler Muse Spark, un modèle propriétaire doté d'un mode d'orchestration multi-agents baptisé "Contemplating". Microsoft a lancé sa gamme MAI pour réduire sa dépendance à OpenAI, tandis que des robots humanoïdes ont été déployés pour la première fois dans les usines BMW et Boston Dynamics. Le premier trimestre 2026 affichait 242 milliards de dollars investis dans le secteur, dont 80 % captés par OpenAI, Anthropic, xAI et Waymo. Ce basculement vers l'IA agentique et physique redessine concrètement les modes de production industrielle et de développement logiciel. L'IA consomme désormais 10 % de l'électricité américaine, forçant l'industrie à se tourner vers le nucléaire, les algorithmes neuro-symboliques cent fois moins énergivores, et même des centres de données spatiaux. Sur le front de la cybersécurité, le modèle Claude Mythos d'Anthropic a démontré sa capacité à identifier seul des failles "Zero-Day" critiques ; jugé trop dangereux pour une diffusion publique, il a été intégré au Project Glasswing, une alliance de géants technologiques chargée de corriger les vulnérabilités du web mondial en temps réel. Ces développements imposent à tous les acteurs une course contre la montre entre puissance de déploiement et maîtrise des risques systémiques. Ce mois sous tension s'inscrit dans une bataille géopolitique et judiciaire qui dépasse largement les laboratoires. En Europe, l'EU AI Act entrera en application stricte en août 2026, contraignant les entreprises à documenter et auditer leurs systèmes d'IA. La Chine bloque tout rachat de ses pépites technologiques par des capitaux américains, tandis que DeepSeek V4, en s'appuyant sur les puces Huawei, illustre la résilience de l'écosystème chinois face aux embargos. Aux États-Unis, Elon Musk a engagé ce que les médias spécialisés surnomment déjà "le procès du siècle" contre OpenAI, au coeur duquel se pose une question fondamentale : à qui appartiendra l'intelligence artificielle générale une fois atteinte ? La réponse conditionnera l'architecture de pouvoir du secteur pour la décennie à venir.

UEL'entrée en application stricte de l'EU AI Act en août 2026 contraint les entreprises opérant en Europe à documenter et auditer leurs systèmes d'IA sous peine de sanctions, à un moment où la compétition mondiale s'intensifie brutalement.

💬 Ce qui me retient le plus ce mois, c'est pas les robots dans les usines BMW ni la guerre des prix DeepSeek, c'est Anthropic qui planque Claude Mythos parce qu'il repère des zero-days tout seul et que c'est jugé trop risqué pour une sortie publique. On arrive à un stade où les labos n'ont plus confiance dans leurs propres créations, et ça, c'est pas banal. Le procès Musk contre OpenAI, au fond, c'est juste la même question posée autrement : à qui appartient le truc une fois qu'on l'a construit ?

LLMsActu
1 source
HONOR intègre le modèle DeepSeek-V4 dans son assistant YOYO
7Pandaily 

HONOR intègre le modèle DeepSeek-V4 dans son assistant YOYO

HONOR a annoncé l'intégration du modèle DeepSeek-V4 dans son assistant vocal YOYO, désormais accessible via MagicOS. La mise à jour concerne les appareils fonctionnant sous MagicOS 8.0 et versions ultérieures, à condition que l'application YOYO soit mise à jour vers la version 90.10.28.041 ou supérieure. DeepSeek-V4 est un grand modèle de langage proposant plusieurs configurations adaptées à des besoins de calcul variés, dont des variantes allégées spécialement optimisées pour les appareils mobiles. Concrètement, l'intégration renforce les capacités de YOYO en matière de dialogue multi-tours, de raisonnement logique et de compréhension multimodale, permettant aux utilisateurs d'effectuer des tâches comme la recherche d'informations ou la génération de contenu directement depuis des points d'entrée système, sans passer par une application tierce. L'impact pour les utilisateurs est immédiat : l'IA n'est plus cantonnée à une application isolée, mais s'intègre au niveau du système d'exploitation, rendant les fonctions intelligentes accessibles en permanence depuis n'importe quelle interface. Autre point notable, HONOR ne réserve pas cette mise à jour à ses modèles haut de gamme. Le déploiement est prévu pour une gamme élargie d'appareils, ce qui élargit significativement le nombre d'utilisateurs pouvant bénéficier de capacités IA avancées sans nécessairement posséder un téléphone premium. Cette initiative s'inscrit dans une tendance lourde qui transforme le marché des smartphones : l'intelligence artificielle embarquée est devenue un axe de différenciation majeur entre constructeurs. Samsung, Apple, Google et désormais HONOR se livrent une compétition intense autour de la qualité des modèles intégrés et de leur profondeur d'ancrage dans le système. Le choix de DeepSeek-V4, un modèle développé par la société chinoise DeepSeek qui a fait sensation début 2025 en proposant des performances comparables aux meilleurs modèles occidentaux à moindre coût, reflète la montée en puissance de l'écosystème IA chinois. Pour HONOR, cette intégration constitue un signal fort de sa volonté de positionner MagicOS comme une plateforme IA de premier plan face à ses concurrents.

UELes utilisateurs européens de smartphones HONOR sous MagicOS 8.0 bénéficient d'un assistant vocal renforcé par DeepSeek-V4, accessible sans application tierce.

OutilsOutil
1 source
Le rapport DeepSeek V4 révèle plusieurs départs au sein de l'équipe R&D
8TechNode 

Le rapport DeepSeek V4 révèle plusieurs départs au sein de l'équipe R&D

Le rapport technique de DeepSeek V4, un document de 58 pages, a suscité l'attention des observateurs du secteur après que sa liste d'auteurs, comprenant près de 300 chercheurs et ingénieurs, a révélé que 10 contributeurs étaient marqués comme ayant quitté l'entreprise. Selon le quotidien économique chinois National Business Daily, au moins cinq membres clés de la R&D ont démissionné depuis le second semestre 2025, dans des domaines aussi stratégiques que les modèles de base, le raisonnement, la reconnaissance optique de caractères (OCR) et la recherche multimodale. Ces départs touchent des équipes au coeur du développement de DeepSeek, ce qui soulève des questions sur la stabilité interne d'un laboratoire qui s'est imposé en quelques mois comme l'un des acteurs les plus disruptifs de l'IA mondiale. La perte de chercheurs spécialisés dans le raisonnement ou les modèles de base peut ralentir sensiblement les cycles de développement et fragiliser la continuité des projets en cours, dans un secteur où la guerre des talents fait rage. DeepSeek, filiale du fonds spéculatif chinois High-Flyer, avait provoqué un séisme début 2025 avec son modèle R1, réputé rivaliser avec les meilleurs modèles américains à une fraction du coût. La publication d'un rapport technique aussi détaillé témoigne d'une volonté de transparence scientifique, mais l'ampleur des départs visibles dans ce même document suggère une tension croissante entre ambitions mondiales et réalités organisationnelles internes.

BusinessOpinion
1 source
DeepSeek réduit ses prix d'API et établit un nouveau plancher pour les grands modèles
9Pandaily 

DeepSeek réduit ses prix d'API et établit un nouveau plancher pour les grands modèles

DeepSeek a annoncé le 26 avril une réduction massive des tarifs de son API, établissant de nouveaux planchers mondiaux pour les grands modèles de langage. Sur l'ensemble de la gamme V4, les prix des requêtes en cache d'entrée ont été divisés par dix par rapport aux tarifs initiaux. Le modèle phare V4-Pro bénéficie en outre d'une promotion temporaire de 75 % valable jusqu'au 5 mai 2026, portant le coût du cache d'entrée à seulement 0,025 yuan par million de tokens (environ 0,0035 dollar), un niveau sans précédent dans l'industrie. Pour V4-Flash, le tarif passe de 0,2 yuan à 0,02 yuan par million de tokens (0,0028 dollar). Sur V4-Pro, les entrées non mises en cache tombent de 12 à 3 yuans (0,41 dollar) et les sorties de 24 à 6 yuans (0,83 dollar). Ces baisses surviennent deux jours après la mise en open source de DeepSeek-V4, disponible en versions Pro et Flash, avec un support de contextes allant jusqu'à un million de tokens. Ces tarifs redéfinissent ce qui est économiquement viable pour les développeurs et les entreprises qui intègrent des modèles de langage dans leurs produits. À moins de 0,004 dollar par million de tokens en cache, des usages autrefois coûteux deviennent accessibles : agents autonomes, traitement massif de documents, pipelines de code avancés. L'argument économique est renforcé par des performances solides : en interne chez DeepSeek, V4 est jugé supérieur à Claude Sonnet 4.5 sur les tâches de programmation, avec une qualité approchant celle de Claude Opus 4.6 en mode non-raisonné. Dans les benchmarks généraux, V4-Pro surpasse tous les modèles open source et ne cède qu'aux meilleurs modèles propriétaires comme Gemini Pro 3.1 ; en mathématiques, STEM et coding compétitif, il égale ou dépasse les leaders du marché. Ces baisses de prix reposent sur des avancées architecturales concrètes. V4-Pro n'active que 49 milliards de paramètres sur 33 000 milliards de tokens d'entraînement, mais son coût de calcul par token est réduit à 27 % de celui de son prédécesseur V3.2, et l'utilisation du cache KV chute de 90 %. Le nouveau mécanisme d'attention creuse développé en interne (DSA) compresse les dimensions des tokens pour offrir de hautes performances sur les longs contextes avec des besoins en mémoire réduits. Stratégiquement, la série V4 est entièrement compatible avec les supernœuds Huawei Ascend, marquant un ancrage renforcé dans l'infrastructure de calcul domestique chinoise. Goldman Sachs a récemment souligné l'importance stratégique de DeepSeek-V4, et la mise en production massive des supernœuds Ascend prévue d'ici fin 2026 laisse entrevoir de nouvelles baisses tarifaires. Dans un secteur où OpenAI, Google et Anthropic s'affrontent déjà sur les prix, cette annonce amplifie la pression sur l'ensemble de l'écosystème mondial de l'IA.

UELa réduction massive des prix de l'API DeepSeek V4 offre aux développeurs et entreprises européens un accès à des modèles de pointe à des coûts jusqu'à dix fois inférieurs, rendant économiquement viables des usages IA auparavant réservés aux grandes structures.

💬 0,004 dollar par million de tokens, c'est le prix où les agents continus et le traitement massif de docs deviennent des trucs normaux, pas des projets de grande entreprise. Et que V4 passe devant Sonnet sur le code, ça commence à faire mal pour les modèles US sur le segment développeurs. Reste à voir si ça tient à l'échelle, mais le rapport de force change.

LLMsOpinion
1 source
90 % moins cher : DeepSeek V4 déclare la guerre totale à OpenAI
10Le Big Data 

90 % moins cher : DeepSeek V4 déclare la guerre totale à OpenAI

DeepSeek a lancé le 24 avril 2026 la version préliminaire de son modèle V4, disponible en deux déclinaisons, Pro et Flash, toutes deux open source. Deux jours à peine après ce lancement, l'entreprise chinoise a enchaîné les annonces tarifaires : le 25 avril, une promotion de 75 % sur l'API V4-Pro, valable jusqu'au 5 mai 2026 à 15h59 UTC, ramenant le prix des entrées en cache de 0,145 dollar à 0,036 dollar, et les sorties de 3,48 à 0,87 dollar. Puis le 26 avril, DeepSeek a généralisé la baisse en réduisant à un dixième du tarif initial le coût d'accès au cache d'entrée pour l'ensemble de sa gamme d'API, effective immédiatement. Ces chiffres prennent tout leur sens face aux tarifs des concurrents américains : Claude Opus 4.7 facture 5 dollars l'entrée et 25 dollars la sortie, GPT-5.5 affiche 5 dollars en entrée et 30 dollars en sortie, et jusqu'à 180 dollars pour la version Pro, tandis que Gemini 3.1 Pro démarre à 2 dollars en entrée et 12 dollars en sortie, avec un doublement des prix au-delà de 200 000 tokens. Pour les développeurs et entreprises qui consomment des volumes importants de tokens, l'écart devient structurellement décisif : utiliser DeepSeek V4-Pro peut coûter dix à cinquante fois moins cher que les alternatives propriétaires comparables en termes de performances. Cela repositionne la question du choix du modèle moins comme un arbitrage qualité-prix que comme un choix purement économique, et met une pression réelle sur les marges des fournisseurs occidentaux. La capacité de DeepSeek à pratiquer ces prix sans sacrifier les performances repose sur une architecture repensée en profondeur. L'entreprise a développé un système hybride baptisé CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), qui compresse les données à chaque étape du traitement au lieu de les manipuler en totalité. Sur un contexte d'un million de tokens, V4-Pro ne mobilise que 27 % des ressources de calcul de son prédécesseur V3.2 et seulement 10 % de sa mémoire cache. DeepSeek a également remplacé l'optimiseur d'entraînement AdamW par Muon, ce qui accélère la convergence du modèle et améliore sa stabilité. Cette combinaison d'innovations architecturales explique comment une entreprise opérant sous contraintes, notamment les restrictions américaines sur l'export de puces haut de gamme vers la Chine, parvient à proposer des modèles qui rivalisent selon ses propres benchmarks avec Gemini 3.1 Pro et GPT-5.4, tout en cassant les prix du marché de façon spectaculaire.

UELes développeurs et entreprises européens consommant des volumes importants de tokens peuvent réduire leurs coûts d'inférence d'un facteur 10 à 50, mais s'exposent à une dépendance stratégique envers un fournisseur chinois soumis à la juridiction de Pékin.

💬 50x moins cher sur le même niveau de perf, c'est pas une promo, c'est une bombe sur les business models occidentaux. Ce qui me frappe, c'est que DeepSeek y arrive sous embargo de puces, en réinventant l'archi au lieu de balancer du compute. Si tu gères des volumes, t'as plus vraiment le luxe d'ignorer ça.

LLMsOpinion
1 source
DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend
11Latent Space 

DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend

DeepSeek a publié les 23 et 24 avril 2026 deux nouveaux modèles d'intelligence artificielle, DeepSeek V4 Pro et DeepSeek V4 Flash, marquant la première mise à jour majeure de l'architecture depuis DeepSeek V3 en décembre 2024 et DeepSeek R1 en janvier 2025. Le modèle phare, V4 Pro, embarque 1 600 milliards de paramètres au total dont 49 milliards actifs simultanément via une architecture de type Mixture of Experts (MoE), tandis que V4 Flash reste plus compact avec 284 milliards de paramètres et 13 milliards actifs. Les deux modèles ont été entraînés sur 32 à 33 000 milliards de tokens en précision FP4 et atteignent une fenêtre contextuelle d'un million de tokens, contre 128 000 pour V3.2. DeepSeek a publié sous licence MIT à la fois les versions Base et Instruct, et livre un rapport technique de 58 pages salué par de nombreux chercheurs comme l'un des mieux documentés de l'année. Cette publication représente une avancée significative pour l'écosystème des modèles open-weights. V4 Pro se classe autour de la deuxième position parmi les modèles à poids ouverts, dans une fourchette comparable à Kimi K2.6 et GLM-5.1, et rivalise selon les benchmarks avec des modèles fermés de la gamme Claude Sonnet à Opus. La fenêtre d'un million de tokens, rendue possible par deux nouvelles techniques maison nommées Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA), est l'élément le plus commenté : à cette longueur, le modèle ne consomme que 27 % des opérations flottantes et 10 % de la mémoire KV cache comparé à DeepSeek V3.2. Les performances en codage agentique et en traitement de documents longs sont particulièrement relevées. La licence MIT et la publication des poids de base ouvrent par ailleurs la voie à des variantes spécialisées et, potentiellement, à un futur DeepSeek R2 orienté raisonnement. La sortie intervient dans un contexte géopolitique tendu autour des semi-conducteurs. DeepSeek a conçu V4 pour fonctionner sur les puces Huawei Ascend via la pile CANN, réduisant explicitement sa dépendance aux GPU Nvidia soumis aux restrictions américaines à l'export. Une étape symbolique forte : les Ascend représentent encore environ un quart des volumes d'H100, mais leur compatibilité avec un modèle de cette envergure signale une trajectoire vers une autonomie technologique chinoise complète. Sur le plan technique, le rapport documente aussi l'intégration de Muon, l'optimiseur développé par Moonshot, ainsi que des hyper-connexions contraintes par variété (mHC), publiées en janvier 2025. La complexité architecturale du modèle suscite un débat dans la communauté : certains chercheurs estiment que peu de laboratoires ouverts disposent des moyens pour reproduire ou affiner une telle infrastructure, relativisant ainsi la portée réelle de la "démocratisation" annoncée.

UELa compatibilité avec les puces Huawei Ascend illustre la trajectoire vers l'autonomie technologique chinoise, renforçant indirectement les débats européens sur la souveraineté numérique et la dépendance aux semi-conducteurs américains.

💬 Le million de tokens à 10% du cache de V3.2, ça c'est de l'ingénierie sérieuse. Mais le signal fort, c'est la compatibilité Huawei Ascend : DeepSeek documente explicitement sa sortie des GPU Nvidia, et un modèle de cette taille qui tourne sur CANN, c'est pas symbolique, c'est structurel. La licence MIT fait briller les yeux, mais reproduire 1,6T de paramètres, c'est une autre conversation.

LLMsActu
1 source
GPT-5.5 vs DeepSeek V4 : quelle IA va dominer la prochaine révolution tech ?
12Le Big Data 

GPT-5.5 vs DeepSeek V4 : quelle IA va dominer la prochaine révolution tech ?

Le 24 avril 2026, OpenAI a lancé GPT-5.5 tandis que DeepSeek publiait son modèle V4 le lendemain, créant une confrontation directe entre les deux architectures les plus attendues de l'année. GPT-5.5 positionne OpenAI dans une logique d'agent autonome : le modèle peut gérer des tâches multi-étapes, planifier ses actions, utiliser des outils externes et avancer sans supervision constante. Ses quatre domaines de prédilection sont le codage agentique, l'interaction avec les systèmes informatiques, les tâches de bureau et la recherche scientifique. Sur le benchmark du codage agentique, il atteint 82,7 % de précision. De son côté, DeepSeek V4 se décline en deux versions : la Pro, avec 49 milliards de paramètres actifs et 1,6 billion de paramètres au total, et la Flash, plus légère à 13 milliards de paramètres actifs sur 284 milliards au total. Le modèle est open-source, intègre une fenêtre de contexte d'un million de tokens, et s'interface nativement avec des environnements comme Claude Code d'Anthropic. La confrontation entre ces deux modèles dessine une séparation nette selon les usages. GPT-5.5 domine sur les tâches qui exigent enchaînement logique, planification et autonomie prolongée, notamment dans les workflows en ligne de commande multi-étapes. DeepSeek V4, avec un score autour de 67,9 % sur le même benchmark, marque un écart de près de 15 points mais compense par une efficience économique et énergétique nettement supérieure. Pour les développeurs et entreprises qui cherchent à déployer des agents à grande échelle sans coûts prohibitifs, DeepSeek V4 Flash représente une option sérieuse. Cette bifurcation change concrètement les décisions d'architecture pour les équipes d'ingénierie : choisir entre puissance brute et rapport performance/coût devient un arbitrage stratégique, pas seulement technique. Ce duel s'inscrit dans une course à l'autonomie qui redéfinit le marché des LLM depuis mi-2025, quand OpenAI a commencé à pivoter vers les agents avec GPT-5 puis GPT-5.4. DeepSeek, laboratoire chinois soutenu par High-Flyer Capital, a déjà démontré sa capacité à bousculer les références du secteur début 2025 avec DeepSeek R1, qui avait provoqué une chute temporaire des valeurs tech américaines. Avec V4, il franchit une nouvelle étape en s'ancrant dans les outils des développeurs occidentaux, brouillant la frontière géopolitique que certains tentaient de tracer entre IA américaine et IA chinoise. Les prochaines semaines de benchmark indépendant seront déterminantes : si DeepSeek V4 Pro confirme ses performances sur les tâches d'inférence complexe, OpenAI pourrait se retrouver contraint d'accélérer la sortie de GPT-6 pour maintenir sa position de référence incontestée.

UELes équipes d'ingénierie européennes font face à un arbitrage stratégique immédiat entre puissance brute et rapport performance/coût pour leurs déploiements d'agents IA autonomes à grande échelle.

💬 15 points d'écart sur le benchmark agentique, GPT-5.5 gagne cette manche sans discussion. Mais DeepSeek V4 qui s'intègre nativement à Claude Code en restant open-source, c'est le genre de posture maligne qu'on n'attendait pas aussi vite : ils viennent chercher les devs occidentaux sur leur propre terrain. La frontière géopolitique que certains voulaient tracer, elle fond à vue d'oeil.

LLMsOpinion
1 source
DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens
13MarkTechPost 

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-AI a publié en version préliminaire la série DeepSeek-V4, composée de deux modèles de langage à architecture Mixture-of-Experts (MoE) conçus pour rendre practicables les fenêtres contextuelles d'un million de tokens. Le premier modèle, DeepSeek-V4-Pro, totalise 1 600 milliards de paramètres dont 49 milliards activés par token, et a été pré-entraîné sur 33 000 milliards de tokens. Le second, DeepSeek-V4-Flash, compte 284 milliards de paramètres au total avec 13 milliards activés, entraîné sur 32 000 milliards de tokens. Les quatre variantes de la série -- Pro, Pro-Base, Flash et Flash-Base -- sont disponibles librement sur Hugging Face. Pour atteindre cette capacité d'un million de tokens, les ingénieurs ont combiné quatre innovations architecturales majeures : un mécanisme d'attention hybride inédit, un nouveau design de connexions résiduelles, un optimiseur alternatif et un entraînement avec quantification FP4. L'enjeu central est l'efficacité à l'inférence, un problème longtemps considéré comme rédhibitoire pour les très longs contextes. Dans un Transformer standard, la complexité de l'attention est quadratique par rapport à la longueur de la séquence : doubler le contexte quadruple la mémoire et le calcul requis. DeepSeek-V4 résout cela via deux mécanismes d'attention compressée, CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), intercalés entre les couches du modèle. CSA compresse le cache clé-valeur de m tokens en une seule entrée, puis sélectionne de façon sparse les entrées les plus pertinentes pour chaque requête. HCA est encore plus agressif : il consolide un bloc encore plus large de tokens en une unique entrée dense. Résultat : DeepSeek-V4-Pro ne consomme que 27 % des opérations flottantes et 10 % de la taille de cache KV de son prédécesseur DeepSeek-V3.2 pour un contexte d'un million de tokens. DeepSeek-V4-Flash descend à 10 % des FLOPs et 7 % du cache. Ces chiffres s'inscrivent dans une course technologique où la longueur de contexte est devenue un axe de différenciation majeur entre les grands laboratoires. Google, Anthropic et OpenAI ont tous étendu leurs fenêtres contextuelles ces derniers mois, mais le coût d'inférence à grande échelle reste un frein commercial décisif. DeepSeek, laboratoire chinois financé par le hedge fund High-Flyer, s'est imposé depuis début 2025 comme un concurrent sérieux avec ses modèles open-weights performants et économes. L'introduction des connexions résiduelles contraintes par polytope de Birkhoff (mHC) et de l'optimiseur Muon -- qui orthogonalise les mises à jour de gradients avant application -- témoigne d'une recherche fondamentale poussée, au-delà de la simple course aux paramètres. La version préliminaire suggère que des annonces plus complètes, avec benchmarks détaillés, sont à prévoir prochainement.

UELes quatre variantes open-weights DeepSeek-V4 disponibles sur Hugging Face permettent aux développeurs et chercheurs européens d'exploiter des contextes d'un million de tokens à coût d'inférence fortement réduit, sans dépendance à une API propriétaire.

LLMsOpinion
1 source
DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5
14VentureBeat AI 

DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5

DeepSeek, la startup chinoise d'intelligence artificielle issue du fonds de trading quantitatif High-Flyer Capital Management, a publié DeepSeek-V4, un modèle de langage aux capacités proches des meilleurs systèmes mondiaux. Avec 1 600 milliards de paramètres organisés selon une architecture Mixture-of-Experts (MoE), ce modèle est disponible gratuitement sous licence MIT commercialement permissive, sur la plateforme Hugging Face et via l'API de DeepSeek. Son tarif d'accès : 1,74 dollar par million de tokens en entrée et 3,48 dollars par million en sortie, soit environ 5,22 dollars pour une utilisation combinée standard. Avec les entrées mises en cache, ce coût descend à 3,63 dollars. À titre de comparaison, GPT-5.5 d'OpenAI coûte 35 dollars pour la même transaction, et Claude Opus 4.7 d'Anthropic 30 dollars. Une version allégée, DeepSeek-V4-Flash, est proposée à seulement 0,42 dollar combiné, au prix d'une baisse de performance. Deli Chen, chercheur chez DeepSeek, a décrit cette sortie sur X comme "un travail d'amour", réalisé 484 jours après le lancement du V3, avec cette formule : "L'AGI appartient à tout le monde." L'impact économique est immédiat et brutal pour les acteurs américains du secteur. DeepSeek-V4-Pro coûte environ six fois moins cher que Claude Opus 4.7 et sept fois moins que GPT-5.5 en conditions normales, et jusqu'à dix fois moins avec les entrées en cache. La version Flash, elle, revient à moins de 1 % du tarif des modèles premium américains. Pour les entreprises traitant de gros volumes de requêtes, cette différence de coûts transforme radicalement le calcul de rentabilité : des tâches d'automatisation jugées trop onéreuses avec les modèles fermés américains deviennent soudainement viables. Développeurs et directions techniques sont contraints de réévaluer leurs choix d'infrastructure, et les fournisseurs positionnés sur le haut de gamme voient leur argument tarifaire sérieusement fragilisé. Ce lancement s'inscrit dans la continuité du "moment DeepSeek" de janvier 2025, quand le modèle R1 avait stupéfait la communauté internationale en rivalisant avec les meilleurs systèmes propriétaires américains à une fraction de leur coût de développement. Depuis, la startup avait publié plusieurs mises à jour de ses séries R1 et V3, mais la communauté attendait un successeur de grande envergure. Ce DeepSeek-V4 est d'ores et déjà qualifié de "deuxième moment DeepSeek", et il ravive les débats sur la pérennité commerciale des modèles fermés face aux alternatives open source chinoises. Il soulève également des questions sur la capacité de DeepSeek à maintenir cette trajectoire malgré les restrictions américaines sur l'exportation de puces haut de gamme, contraintes que l'entreprise semble contourner avec une efficacité croissante grâce à des optimisations architecturales poussées.

UEL'écart de prix, jusqu'à six fois inférieur aux modèles premium américains, permet aux entreprises européennes de rentabiliser des projets d'automatisation IA jusqu'ici jugés trop coûteux.

💬 Six fois moins cher qu'Opus 4.7, performances comparables, licence MIT. C'est exactement le scénario que les équipes produit chez OpenAI et Anthropic essayaient de ne pas avoir à gérer, et il arrive quand même. "L'AGI appartient à tout le monde", dit DeepSeek, bon, sur le papier c'est beau, mais le vrai truc c'est que des automatisations qu'on refusait de budgéter il y a six mois deviennent rentables dès ce soir.

LLMsOpinion
1 source
7 fois moins cher que Claude Opus 4.7 : la Chine dégaine DeepSeek-V4, un modèle open source conçu pour vous détourner des États-Unis
15Numerama 

7 fois moins cher que Claude Opus 4.7 : la Chine dégaine DeepSeek-V4, un modèle open source conçu pour vous détourner des États-Unis

DeepSeek vient de publier DeepSeek-V4-Preview, une famille de deux modèles open weight conçus pour rivaliser avec les meilleurs systèmes d'IA propriétaires américains. Le laboratoire chinois annonce un coût d'utilisation sept fois inférieur à celui de Claude Opus 4.7 d'Anthropic, ce qui en fait l'un des modèles les plus compétitifs du marché en termes de rapport performance-prix. Les poids sont accessibles librement, permettant à n'importe quelle entreprise ou développeur de les déployer sans dépendre des API américaines. L'impact est immédiat pour les équipes techniques et les entreprises qui cherchent à réduire leurs coûts d'inférence. Un modèle open weight de ce niveau de performance signifie qu'on peut l'héberger soi-même, adapter les poids, et s'affranchir des conditions d'utilisation imposées par OpenAI, Anthropic ou Google. Pour les marchés émergents et les entreprises européennes soucieuses de souveraineté numérique, c'est une alternative concrète aux géants américains. Ce lancement s'inscrit dans la continuité directe du coup de tonnerre de janvier 2025, lorsque DeepSeek-R1 avait provoqué un effondrement boursier des valeurs tech américaines en démontrant qu'on pouvait former des modèles de pointe à moindre coût. La Maison-Blanche surveille désormais de près les pratiques des laboratoires chinois, notamment sur les questions d'accès aux puces et de transfert technologique. Avec V4, DeepSeek confirme une stratégie délibérée : rendre l'open source suffisamment attractif pour décrocher les utilisateurs mondiaux des écosystèmes américains.

UELes entreprises européennes soucieuses de souveraineté numérique disposent d'une alternative open weight auto-hébergeable aux API américaines, réduisant leur dépendance aux conditions d'utilisation imposées par OpenAI, Anthropic ou Google.

💬 Sept fois moins cher que Claude Opus 4.7, open weight, que tu peux héberger toi-même sans dépendre d'une API américaine : on est loin du coup de com'. DeepSeek ne construit pas juste un modèle compétitif, ils construisent une porte de sortie pour toutes les boîtes qui en ont marre des conditions d'utilisation qui changent et des prix qui grimpent. Reste à tester si ça tient en prod.

LLMsOpinion
1 source
Oubliez GPT-5.5 : DeepSeek-V4 est là et il est terrifiant
16Le Big Data 

Oubliez GPT-5.5 : DeepSeek-V4 est là et il est terrifiant

DeepSeek, la startup chinoise fondée en 2023, a lancé ce 24 avril 2026 une version préliminaire de son nouveau grand modèle de langage, baptisé DeepSeek-V4. Comme ses prédécesseurs, ce modèle est open source et librement téléchargeable. Il se décline en deux variantes : V4-Pro, avec 1,6 billion de paramètres totaux et 49 milliards de paramètres actifs, et V4-Flash, plus léger avec 284 milliards de paramètres totaux et 13 milliards actifs. Selon DeepSeek, la version Pro rivalise avec les meilleurs modèles propriétaires mondiaux en mathématiques et en programmation, et n'est dépassée que par Gemini 3.1-Pro de Google sur les connaissances générales. Les deux versions supportent une fenêtre de contexte d'un million de tokens et ont été optimisées pour fonctionner avec des outils comme Claude Code d'Anthropic. La version Flash, moins puissante, se distingue par sa rapidité et son coût d'API réduit. Ce lancement confirme la capacité de DeepSeek à maintenir une cadence de développement rapide face aux géants américains, tout en restant dans la sphère open source. Pour les développeurs et les entreprises, l'accès à un modèle de cette envergure, modifiable et exécutable localement, représente une alternative crédible aux solutions fermées d'OpenAI ou Google, généralement plus coûteuses. La compétitivité annoncée sur les tâches d'agents intelligents et d'inférence est particulièrement stratégique : ce sont précisément les cas d'usage qui alimentent les déploiements en production dans les entreprises technologiques. Si les benchmarks se confirment dans des conditions réelles, V4 pourrait accélérer l'adoption de modèles open source dans des environnements où la confidentialité des données ou la maîtrise des coûts sont prioritaires. DeepSeek avait fait irruption sur la scène internationale en janvier 2025 avec son modèle de raisonnement R1, développé en moins de deux mois pour un coût revendiqué inférieur à six millions de dollars, un chiffre qui avait ébranlé les certitudes de la Silicon Valley sur la nécessité d'investissements massifs. Ce coup d'éclat avait déclenché des interrogations profondes sur la domination américaine dans l'IA, mais aussi des doutes de la part d'analystes sceptiques quant aux ressources réellement mobilisées. Parallèlement, plusieurs pays avaient ouvert des enquêtes sur le traitement des données personnelles par les services de DeepSeek. Avec V4, la startup s'inscrit dans une continuité stratégique claire : publier rapidement, rester open source, et afficher des performances comparables aux modèles fermés les plus avancés. La prochaine étape sera de voir si ces performances tiennent à l'épreuve d'évaluations indépendantes, notamment face à GPT-5.5 qu'OpenAI vient de déployer.

UELa nature open source de DeepSeek-V4 offre aux entreprises et institutions européennes une alternative déployable localement, réduisant la dépendance aux modèles fermés américains et facilitant la conformité RGPD grâce au traitement des données en interne.

LLMsOpinion
1 source
17Latent Space 

[AINews] Moonshot Kimi K2.6 : le meilleur modèle open source du monde se met à jour pour rivaliser avec Opus 4.6 (avant DeepSeek v4 ?)

Moonshot AI a lancé Kimi K2.6 le 18 avril 2026, une mise à jour majeure de son modèle de langage open-weight qui consolide la position du laboratoire chinois en tête des modèles ouverts mondiaux. Ce modèle de type Mixture-of-Experts (MoE) totalise 1 000 milliards de paramètres, avec 32 milliards actifs à la fois, 384 experts, une fenêtre de contexte de 256 000 tokens, la multimodalité native et une quantification INT4. Disponible dès le jour de lancement sur vLLM, OpenRouter, Cloudflare Workers AI, Baseten et MLX, il revendique des records open source sur plusieurs benchmarks de référence : 54,0 sur HLE with tools, 58,6 sur SWE-Bench Pro, 76,7 sur SWE-Bench Multilingual et 83,2 sur BrowseComp. Moonshot revendique également des capacités d'exécution longue durée inédites : plus de 4 000 appels d'outils enchaînés, des sessions continues de plus de 12 heures, et jusqu'à 300 sous-agents parallèles via un système baptisé "Claw Groups". Simultanément, Alibaba a publié Qwen3.6-Max-Preview, un avant-goût de son prochain modèle phare, qui a atteint la 7e place dans le classement Code Arena, propulsant Alibaba au 3e rang des laboratoires dans cette catégorie. Ces sorties illustrent une accélération concrète des modèles ouverts chinois dans les domaines du code et des agents autonomes, deux terrains jusqu'ici dominés par des acteurs américains comme Anthropic, OpenAI et Google. La communauté des développeurs a rapidement adopté K2.6 comme alternative crédible à Claude ou GPT-4 pour des tâches d'infrastructure : des utilisateurs rapportent une exécution autonome sur cinq jours, des réécritures de noyaux système, et un moteur d'inférence en Zig surpassant LM Studio de 20 % en débit. K2.6 tient également tête à Gemini 3.1 Pro sur les tâches de design frontend avec un taux de victoire et d'égalité de 68,6 %, un terrain considéré comme le point fort de Google. Le contexte est celui d'une course ouverte et intense entre laboratoires. Depuis le lancement de K2.5 en janvier 2026, Moonshot occupe la première place parmi les labs chinois open source, dans un silence relatif de DeepSeek depuis la version v3.2, dont une v4 reste attendue. Moonshot est par ailleurs l'un des trois laboratoires chinois que l'équipe d'Anthropic a cités en février pour avoir potentiellement utilisé ses données d'entraînement sans autorisation. En parallèle, Hermes Agent, la pile d'agents open source la plus en vue du moment, a dépassé 100 000 étoiles sur GitHub en moins de deux mois, détrônant OpenClaw en croissance hebdomadaire. L'ensemble du tableau suggère que les modèles ouverts, portés par des labs asiatiques bien dotés, ne jouent plus dans une catégorie inférieure aux modèles propriétaires occidentaux.

UELes développeurs européens peuvent désormais déployer localement un modèle open-weight de niveau frontier, réduisant leur dépendance aux API propriétaires américaines soumises au Cloud Act.

LLMsActu
1 source
Deepseek v4 tournerait entièrement sur des puces Huawei, une avancée majeure pour l'indépendance de la Chine en IA
18The Decoder 

Deepseek v4 tournerait entièrement sur des puces Huawei, une avancée majeure pour l'indépendance de la Chine en IA

DeepSeek prépare le lancement de sa quatrième génération de modèle d'intelligence artificielle, attendue dans les prochaines semaines, et celui-ci tournera exclusivement sur des puces Huawei. Selon des sources citées par The Decoder, les grands groupes technologiques chinois auraient déjà passé des commandes portant sur des centaines de milliers d'unités de ces processeurs. Nvidia, le fabricant américain qui domine habituellement le marché de l'entraînement et de l'inférence IA, a été écarté des phases de test préliminaires. C'est un signal fort pour l'autonomie technologique chinoise en matière d'IA. Jusqu'ici, les puces Huawei Ascend étaient perçues comme inférieures aux GPU Nvidia H100 et H800, rendant leur adoption à grande échelle difficile pour des modèles de pointe. Si DeepSeek v4 tourne efficacement sur cette infrastructure domestique, cela validerait la montée en puissance de l'écosystème matériel chinois et réduirait concrètement la dépendance vis-à-vis des fabricants américains, une vulnérabilité stratégique majeure depuis les restrictions à l'export imposées par Washington. Ce développement s'inscrit dans un contexte de guerre technologique larvée entre les États-Unis et la Chine. Depuis 2022, les restrictions américaines sur l'exportation de semi-conducteurs avancés vers la Chine ont contraint Huawei et ses partenaires à accélérer massivement leurs efforts de R&D sur les puces Ascend. DeepSeek avait déjà surpris le monde en janvier 2025 avec des modèles très performants entraînés à moindre coût. Si v4 confirme la viabilité des puces Huawei à cette échelle, cela pourrait remodeler les équilibres du secteur mondial de l'IA.

UESi les puces Huawei Ascend s'avèrent compétitives pour l'IA de pointe, cela accélère la fragmentation du marché mondial des semi-conducteurs et renforce la pression sur l'Europe pour développer sa propre souveraineté en matière de hardware IA.

InfrastructureOpinion
1 source
Un printemps pour les LLMs open-weight : 10 architectures (jan-fév 2026)
19Ahead of AI 

Un printemps pour les LLMs open-weight : 10 architectures (jan-fév 2026)

Entre janvier et février 2026, une vague exceptionnelle de modèles de langage open-weight a déferlé sur la communauté IA, avec dix architectures majeures publiées en l'espace de trois semaines. Parmi les sorties les plus remarquées : Trinity Large d'Arcee AI (27 janvier), Kimi K2.5 de Moonshot AI (27 janvier), Step 3.5 Flash de StepFun (1er février), Qwen3-Coder-Next (3 février), GLM-5 de z.AI et MiniMax M2.5 (12 février), Nanbeige 4.1 3B (13 février), Qwen 3.5 (15 février), les modèles Ling 2.5 et Ring 2.5 à 1 000 milliards de paramètres d'Ant Group (16 février), et enfin Tiny Aya de Cohere (17 février). Le modèle phare de cette période reste Trinity Large d'Arcee AI : un Mixture-of-Experts de 400 milliards de paramètres, dont seulement 13 milliards sont activés à chaque inférence, accompagné de deux variantes plus légères — Trinity Mini (26B/3B actifs) et Trinity Nano (6B/1B actifs). Arcee AI a publié les poids du modèle ainsi qu'un rapport technique détaillé, d'abord sur GitHub puis sur arXiv à partir du 18 février. Cette effervescence illustre une démocratisation accélérée des modèles de grande taille : des entreprises jusqu'ici discrètes, comme Arcee AI, publient désormais des architectures compétitives avec les géants comme z.AI et son GLM-4.5 (355 milliards de paramètres). Sur le plan technique, Trinity Large rivalise avec GLM-4.5 en performances sur les modèles de base — une parité remarquable pour une start-up américaine encore peu connue. Ces modèles open-weight permettent à des équipes de recherche, des entreprises et des développeurs indépendants de déployer des LLMs puissants sans dépendre des API commerciales fermées, ce qui réduit les coûts et augmente la souveraineté technologique. Sur le plan architectural, cette génération de modèles converge vers plusieurs innovations communes. L'attention à fenêtre glissante (sliding window attention, SWA) — qui réduit le coût computationnel de O(n²) à O(n·t) en limitant chaque token à une fenêtre locale fixe — est adoptée par Trinity, Gemma 3, OLMo 3 ou encore Xiaomi MiMo. Trinity opte pour un ratio local:global de 3:1 avec une fenêtre de 4 096 tokens. L'architecture intègre également le QK-Norm (normalisation des clés et requêtes pour stabiliser l'entraînement), l'absence d'encodage positionnel dans les couches d'attention globale (NoPE), et un mécanisme de gating sur l'attention qui réduit les "attention sinks" et améliore la généralisation sur les longues séquences. Ces choix architecturaux convergents signalent une forme de consensus émergeant dans la communauté open-weight sur les meilleures pratiques pour les modèles à très long contexte — une tendance qui devrait s'accentuer avec les prochaines sorties, dont DeepSeek V4, attendu prochainement.

UELes équipes de recherche et entreprises européennes peuvent déployer ces modèles open-weight puissants sans dépendre des API commerciales fermées, réduisant les coûts et renforçant leur souveraineté technologique.

LLMsActu
1 source

Suivre DeepSeek V4 en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour