LLMsMarkTechPost · 24 avr. 2026, 20:36· 2 min de lecture

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-AI a publié en version préliminaire la série DeepSeek-V4, composée de deux modèles de langage à architecture Mixture-of-Experts (MoE) conçus pour rendre practicables les fenêtres contextuelles d'un million de tokens. Le premier modèle, DeepSeek-V4-Pro, totalise 1 600 milliards de paramètres dont 49 milliards activés par token, et a été pré-entraîné sur 33 000 milliards de tokens. Le second, DeepSeek-V4-Flash, compte 284 milliards de paramètres au total avec 13 milliards activés, entraîné sur 32 000 milliards de tokens. Les quatre variantes de la série -- Pro, Pro-Base, Flash et Flash-Base -- sont disponibles librement sur Hugging Face. Pour atteindre cette capacité d'un million de tokens, les ingénieurs ont combiné quatre innovations architecturales majeures : un mécanisme d'attention hybride inédit, un nouveau design de connexions résiduelles, un optimiseur alternatif et un entraînement avec quantification FP4.

L'enjeu central est l'efficacité à l'inférence, un problème longtemps considéré comme rédhibitoire pour les très longs contextes. Dans un Transformer standard, la complexité de l'attention est quadratique par rapport à la longueur de la séquence : doubler le contexte quadruple la mémoire et le calcul requis. DeepSeek-V4 résout cela via deux mécanismes d'attention compressée, CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), intercalés entre les couches du modèle. CSA compresse le cache clé-valeur de m tokens en une seule entrée, puis sélectionne de façon sparse les entrées les plus pertinentes pour chaque requête. HCA est encore plus agressif : il consolide un bloc encore plus large de tokens en une unique entrée dense. Résultat : DeepSeek-V4-Pro ne consomme que 27 % des opérations flottantes et 10 % de la taille de cache KV de son prédécesseur DeepSeek-V3.2 pour un contexte d'un million de tokens. DeepSeek-V4-Flash descend à 10 % des FLOPs et 7 % du cache.

Ces chiffres s'inscrivent dans une course technologique où la longueur de contexte est devenue un axe de différenciation majeur entre les grands laboratoires. Google, Anthropic et OpenAI ont tous étendu leurs fenêtres contextuelles ces derniers mois, mais le coût d'inférence à grande échelle reste un frein commercial décisif. DeepSeek, laboratoire chinois financé par le hedge fund High-Flyer, s'est imposé depuis début 2025 comme un concurrent sérieux avec ses modèles open-weights performants et économes. L'introduction des connexions résiduelles contraintes par polytope de Birkhoff (mHC) et de l'optimiseur Muon -- qui orthogonalise les mises à jour de gradients avant application -- témoigne d'une recherche fondamentale poussée, au-delà de la simple course aux paramètres. La version préliminaire suggère que des annonces plus complètes, avec benchmarks détaillés, sont à prévoir prochainement.

Impact France/UE

Les quatre variantes open-weights DeepSeek-V4 disponibles sur Hugging Face permettent aux développeurs et chercheurs européens d'exploiter des contextes d'un million de tokens à coût d'inférence fortement réduit, sans dépendance à une API propriétaire.

Dans nos dossiers

DeepSeek V4 Hugging Face OpenAI Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes

MiniMax a lancé le 1er juin 2026 son nouveau modèle MiniMax M3, successeur du M2.7 dans la série M. La nouveauté architecturale centrale est la MSA (MiniMax Sparse Attention), un mécanisme d'attention creuse qui permet une fenêtre de contexte d'un million de tokens tout en ramenant le coût de calcul par token à seulement 1/20e de celui des modèles M2 précédents à cette longueur. Concrètement, l'étape de préfill est accélérée de plus de 9 fois et le décodage de plus de 15 fois au niveau du million de tokens. M3 intègre nativement la compréhension d'images et de vidéos ainsi que le contrôle de l'ordinateur de bureau, sans modules additionnels. Le modèle est disponible immédiatement via l'API MiniMax, MiniMax Code et le MiniMax Token Plan. Les poids open-weight et le rapport technique complet sont annoncés dans les dix jours suivant la sortie. Sur les benchmarks de programmation autonome, M3 atteint 59 % sur SWE-Bench Pro, surpassant GPT-5.5 et Gemini 3.1 Pro et s'approchant de Claude Opus 4.7. Il obtient également 66 % sur Terminal-Bench 2.1, 74,2 % sur MCP Atlas, le meilleur score parmi les modèles évalués sur Claw-Eval, et 70,06 % de taux de complétion sur OSWorld-Verified, un benchmark de contrôle d'interface utilisateur sur 361 tâches. Pour les développeurs et les équipes d'ingénierie, ces chiffres signifient un modèle capable d'ingérer des bases de code complètes en contexte, de raisonner sur de longues séquences vidéo et de mener des workflows de développement multi-tours sans perdre la cohérence. MiniMax a également conçu un simulateur d'interaction développeur pour l'entraînement, reproduisant des scénarios réels comme l'élaboration d'exigences, les corrections itératives et les changements de tâche en cours de session, afin de réduire l'écart entre performances sur benchmarks statiques et usages réels en production. L'architecture MSA s'attaque à un problème structurel des transformers classiques : la complexité quadratique de l'attention standard, qui rend le traitement de très longs contextes prohibitif en calcul et en mémoire. Là où des approches concurrentes comme DSA ou MoBA proposent des solutions partielles, MiniMax affirme que MSA partitionne le cache KV de manière plus précise, chaque bloc n'étant lu qu'une seule fois avec un accès mémoire contigu grâce à l'approche dite "KV outer gather Q". L'équipe reporte un gain supérieur à 4 fois par rapport aux implémentations open-source de référence comme Flash-Sparse-Attention. M3 s'inscrit dans une compétition intense entre labs pour combiner grande fenêtre de contexte, multimodalité native et capacités agentiques dans un seul modèle open-weight, segment où MiniMax revendique une première mondiale. La publication prochaine des poids permettra à la communauté de vérifier ces affirmations de manière indépendante, ce qui constituera un test décisif pour la crédibilité du modèle face à Gemini 2.5 Pro, aux modèles Claude ou aux futurs lancements de Qwen.

LLMsActu

1 source

2MarkTechPost

Moonshot AI dévoile Kimi K3, un modèle open MoE de 2,8 billions de paramètres avec Kimi Delta Attention et un contexte d'1M tokens

Moonshot AI a publié le 17 juillet 2026 son nouveau modèle Kimi K3, un système à 2,8 billions de paramètres doté d'une vision native et d'une fenêtre de contexte d'un million de tokens. L'entreprise chinoise le présente comme le premier modèle ouvert à franchir la barre des 3 000 milliards de paramètres, une taille encore inédite en open source. K3 repose sur une architecture Mixture-of-Experts éparse combinant deux innovations : Kimi Delta Attention (KDA), un mécanisme d'attention linéaire hybride qui accélérerait le décodage jusqu'à 6,3 fois sur des contextes d'un million de tokens, et Attention Residuals (AttnRes), qui optimise la circulation de l'information à travers la profondeur du réseau pour un gain d'efficacité d'entraînement d'environ 25 %, moyennant moins de 2 % de coût supplémentaire. Le modèle n'active que 16 de ses 896 experts à la fois grâce à un système baptisé Stable LatentMoE, avec un mécanisme de répartition appelé Quantile Balancing qui élimine les réglages heuristiques habituels. Combinées à d'autres innovations comme Per-Head Muon ou Gated MLA, ces optimisations offrent selon Moonshot une efficacité d'apprentissage 2,5 fois supérieure à celle de son prédécesseur Kimi K2. Pour le déploiement, K3 utilise une quantification en MXFP4 et MXFP8, et Moonshot recommande des configurations d'au moins 64 accélérateurs ; l'entreprise a également contribué une implémentation de KDA au projet vLLM. Sur le plan des performances, Kimi K3 reste globalement en retrait par rapport aux modèles propriétaires les plus puissants du marché, Claude Fable 5 d'Anthropic et GPT 5.6 Sol d'OpenAI, mais il les dépasse sur plusieurs benchmarks spécifiques : Program Bench, SWE Marathon, BrowseComp, Automation Bench et OmniDocBench, ce dernier mesurant l'analyse de documents avec un score de 91,1. Il reste derrière Fable 5 sur les tâches d'ingénierie logicielle complexes (FrontierSWE) et de raisonnement expert (HLE-Full), et derrière GPT 5.6 Sol sur DeepSWE. Pour les développeurs et les entreprises, cela signifie l'arrivée d'une alternative ouverte capable de rivaliser avec les meilleurs modèles fermés sur des cas d'usage concrets comme l'ingénierie logicielle à l'échelle d'un dépôt entier, la recherche automatisée ou le traitement de documents complexes, sans les coûts de licence ni les contraintes d'accès des API propriétaires. Ce lancement s'inscrit dans une course effrénée à la taille et à l'efficacité des modèles ouverts, où Moonshot a occupé neuf des douze derniers mois la position de plus gros modèle disponible en open source. Face à des géants comme Anthropic, OpenAI ou Google, mais aussi face à d'autres acteurs chinois comme Zhipu avec sa gamme GLM, l'entreprise mise sur la sparsité et des architectures d'attention plus efficaces pour compenser l'écart de ressources de calcul. Les cas d'usage mis en avant, agents de codage autonomes fonctionnant sur de longues sessions avec un minimum de supervision humaine, itération entre code et captures d'écran grâce à la vision intégrée, ou encore production de rapports de recherche approfondis s'appuyant sur des milliers de pages consultées, dessinent une trajectoire claire vers des systèmes d'IA capables de mener des tâches complexes en autonomie prolongée. La suite dépendra de l'adoption par la communauté open source et de la capacité de Moonshot à maintenir ce rythme d'innovation architecturale.

💬 Kimi K3 franchit les 2,8 billions de paramètres, mais le chiffre qui compte c'est le 6,3x sur le décodage long contexte, c'est ça qui rend un million de tokens réellement exploitable en prod et pas juste un chiffre marketing. Moonshot tient le rythme depuis neuf mois sur douze en tête de l'open source, et ça commence à ressembler à une stratégie plus qu'à un coup ponctuel. Reste que sur les tâches d'ingénierie complexe, Fable 5 et GPT 5.6 Sol gardent l'avance, l'open source rattrape sur les cas d'usage concrets, pas encore sur le raisonnement pur.

LLMsActu

1 source

3MarkTechPost

Meituan lance LongCat-2.0 : un modele MoE open source de 1 600 milliards de parametres avec contexte natif de 1 million de tokens

Meituan a dévoilé LongCat-2.0, un modèle de langage à mélange d'experts (MoE) doté de 1 600 milliards de paramètres au total, dont environ 48 milliards sont activés par token. Ce successeur de LongCat-Flash, un modèle de 560 milliards de paramètres sorti en 2025, cible spécifiquement le codage agentique : compréhension, génération et exécution de code au sein de workflows autonomes. Le modèle se distingue par une fenêtre de contexte native d'un million de tokens et par le fait que son entraînement comme son déploiement ont été réalisés entièrement sur des superpods ASIC domestiques, sans recourir au matériel Nvidia. L'entraînement a mobilisé plus de 35 000 milliards de tokens sur des millions d'heures-accélérateur, et Meituan affirme n'avoir subi aucun retour arrière ni pic de perte irrécupérable durant tout le processus. Sur le plan des performances, l'entreprise revendique un score de 59,5 sur SWE-bench Pro, devançant légèrement GPT-5.5 (58,6), ainsi que 70,8 sur Terminal-Bench 2.1 et 77,3 sur SWE-bench Multilingual. Meituan situe également LongCat-2.0 au niveau de Gemini 3.1 Pro de Google en performance globale, tout en reconnaissant qu'il reste en retrait des systèmes de pointe sur des benchmarks d'agents plus généraux comme FORTE et BrowseComp. Ces chiffres proviennent uniquement des tests internes de Meituan et n'ont pas encore été confirmés par des classements indépendants. Cette annonce est importante car elle illustre la capacité croissante des entreprises chinoises à entraîner et servir des modèles de très grande taille sans dépendre des puces Nvidia, un enjeu stratégique majeur dans un contexte de restrictions à l'export américaines. Pour les développeurs et les équipes d'ingénierie, un contexte natif d'un million de tokens change concrètement l'usage possible d'un assistant de code : il devient possible d'analyser des dépôts entiers ou de longues sessions d'agent sans fragmentation artificielle. La stabilité revendiquée pendant l'entraînement sur du matériel non-Nvidia est aussi un signal fort, car l'écosystème logiciel autour des ASIC domestiques est réputé moins mature que celui de Nvidia, ce qui rend ce genre de résultat plus difficile à obtenir. Si les performances en codage agentique se confirment de façon indépendante, LongCat-2.0 pourrait s'imposer comme une alternative crédible aux modèles occidentaux pour les tâches d'ingénierie logicielle automatisée, un segment de plus en plus disputé entre laboratoires. L'architecture de LongCat-2.0 repose sur quatre innovations pensées pour maîtriser le coût d'un modèle de cette taille. Les experts à calcul nul laissent les tokens simples, comme la ponctuation, traverser le modèle sans traitement lourd, tandis qu'un contrôleur PID ajuste dynamiquement l'activation entre 33 et 56 milliards de paramètres selon la complexité du texte. La LongCat Sparse Attention, présentée comme une évolution du DeepSeek Sparse Attention, combine trois méthodes d'indexation, streaming, inter-couches et hiérarchique, pour éviter l'explosion quadratique du coût de calcul liée aux longs contextes. S'y ajoute un module d'embedding par n-grammes de 135 milliards de paramètres, censé mieux capturer les relations locales entre tokens, ainsi qu'un pipeline de post-entraînement baptisé MOPD qui fusionne trois groupes d'experts spécialisés en agents, raisonnement et interaction. Publié sous licence MIT le 30 juin 2026, LongCat-2.0 s'inscrit dans une compétition mondiale où chaque laboratoire cherche à repousser simultanément la taille des modèles, la longueur de contexte et l'efficacité matérielle.

💬 Ce qui compte vraiment ici, c'est pas le score SWE-bench, c'est le "sans Nvidia". Meituan entraîne 1600 milliards de paramètres sur des puces maison sans un seul pic de perte irrécupérable, et ça, ça vaut plus cher que battre GPT-5.5 de quelques points. La vraie question, c'est si le score tient sous un classement indépendant, parce que les benchmarks internes des labos chinois, on sait ce que ça vaut. Reste que la Chine vient de démontrer qu'elle peut scaler sans dépendre de Jensen Huang, et ça, les gens à Washington devraient s'en inquiéter plus que d'un simple leaderboard.

LLMsActu

1 source

4MarkTechPost

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic