LLMsMarkTechPost · 15 juin 2026, 09:10· 2 min de lecture

Z.ai lance GLM-5.2 : contexte de 1 million de tokens, deux niveaux d'effort de raisonnement, sans benchmarks au lancement

Z.ai a dévoilé le 13 juin 2026 GLM-5.2, troisième sortie majeure de sa gamme GLM-5 après GLM-5 (11 février), GLM-5-Turbo (15 mars) et GLM-5.1 (7 avril), soit quatre modèles de premier plan dédiés au codage en environ quatre mois. La caractéristique phare de ce nouveau modèle est sa fenêtre de contexte de 1 000 000 de tokens, une variante que Z.ai désigne glm-5.2[1m] dans sa propre configuration, contre 200 000 tokens pour GLM-5.1, soit une multiplication par cinq. Chaque réponse peut générer jusqu'à 131 072 tokens en sortie. Le modèle introduit également deux niveaux d'effort de raisonnement, High et Max, ce dernier étant recommandé par Z.ai pour les tâches de codage complexes en plusieurs étapes. Z.ai n'a publié aucun score de référence au lancement: ni SWE-bench, ni Terminal-Bench, ni Code Arena. La licence est MIT, mais les poids du modèle ne seront diffusés que la semaine suivante.

Cette fenêtre d'un million de tokens transforme concrètement le travail d'un agent de codage. L'agent peut désormais conserver un dépôt de taille moyenne entier en mémoire de travail, fichiers sources, tests, configuration et historique de conversation compris, évitant ainsi les résumés permanents qu'imposent les fenêtres plus réduites. En pratique, cela ouvre la voie à des refactorisations à l'échelle d'un dépôt complet: un agent peut charger un pipeline de données Python de quarante fichiers et suivre les dépendances entre fichiers en une seule session, sans avoir à recharger le code. Le modèle vise aussi les exécutions autonomes de longue haleine, ces boucles soutenues de planification, d'exécution, de test et de correction; à titre de comparaison, GLM-5.1 enchaînait environ 1 700 étapes d'agent en une session, avec des boucles autonomes pouvant durer jusqu'à huit heures. GLM-5.2 se présente enfin comme un remplaçant direct de Claude Code, l'utilisateur n'ayant qu'à changer l'URL de base et l'identifiant du modèle, et permet d'analyser de longs documents, spécifications, journaux ou transcriptions dépassant les 200 000 tokens.

Sur le plan technique, Z.ai n'a pas détaillé l'architecture de GLM-5.2 dans ses supports de lancement, mais selon les notes de la communauté, la base GLM-5 repose sur un modèle Mixture-of-Experts de 744 milliards de paramètres, dont 40 milliards sont activés par token, une ossature que GLM-5.1 avait conservée en réorientant seulement son post-entraînement. L'absence de tout chiffre de performance au lancement détonne dans un secteur où les classements façonnent la perception des modèles, d'autant que GLM-5.1 affichait un score de 58,4 sur SWE-bench Pro; la communication de Z.ai s'est concentrée sur la disponibilité, le contexte étendu et la feuille de route open source plutôt que sur les comparaisons. Ce positionnement illustre la cadence effrénée d'un acteur chinois qui multiplie les sorties pour s'imposer comme alternative crédible aux modèles propriétaires occidentaux, en misant à la fois sur une licence MIT permissive et sur une compatibilité directe avec les outils existants. Reste à voir si les benchmarks, attendus avec la publication des poids, confirmeront que cette fenêtre d'un million de tokens s'accompagne des gains de qualité que la concurrence exigera.

Dans nos dossiers

Claude Code Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu

1 source

2VentureBeat AI

Kimi K2.7-Code réduit les tokens de raisonnement de 30 %, mais les praticiens contestent les benchmarks

Moonshot AI a publié cette semaine Kimi K2.7-Code, une mise à jour open source de sa famille de modèles de codage K2. Construit sur la même architecture mixture-of-experts à un trillion de paramètres que son prédécesseur K2.6, le modèle est disponible sous licence Modified MIT, téléchargeable sur HuggingFace et déployable via vLLM ou SGLang. Il s'intègre via une API compatible OpenAI, ce qui facilite la migration pour les équipes déjà en production avec K2.6. La principale promesse de Moonshot AI : une réduction de 30 % des tokens de raisonnement ("thinking tokens") par rapport à K2.6, ce qui se traduirait directement par une baisse des coûts d'inférence dans les workflows agentiques. Sur ses propres benchmarks propriétaires, l'entreprise annonce des gains de 21,8 % sur Kimi Code Bench v2, 11 % sur Program Bench et 31,5 % sur MLS Bench Lite. Sur le plan technique, le modèle génère désormais du code bas niveau en l'écrivant directement, là où K2.6 s'appuyait sur des wrappers de bibliothèques existantes, une approche censée améliorer la généralisation sur Rust, Go et Python. Le problème, soulevé immédiatement par des praticiens, est que ces chiffres proviennent exclusivement de benchmarks internes à Moonshot. Le chercheur Elliot Arledge a testé K2.7-Code face à K2.6 et à Claude Fable 5 sur KernelBench-Hard, un benchmark public spécialisé dans l'optimisation de kernels GPU, et a publié ses logs complets. Son verdict : "K2.7 est plus honnête, mais pas plus capable." Sur cinq des six problèmes testés, K2.7-Code a bien produit des kernels Triton réels là où K2.6 utilisait des wrappers, mais deux de ces kernels ont échoué à cause de bugs du modèle lui-même. Sur le kernel MoE, le score a même régressé, passant de 0,222 à 0,157 par rapport à K2.6. Claude Fable 5, lui, "arrive en tête sur chaque cellule où il n'échoue pas honnêtement", note Arledge. Sugumaran Balasubramaniyan, développeur d'un routeur de tâches pour la plateforme Hermes Agent, a interpellé Moonshot directement : "Avec tout le respect dû, chaque modèle 'progresse' de deux chiffres sur sa propre suite de tests." Il a rappelé que K2.6 ne score que 24 % sur DeepSWE, un benchmark indépendant bien plus discriminant, au même niveau que GPT-5.4-mini, et a demandé si K2.7-Code serait soumis au même test. Cette situation illustre un problème structurel dans l'évaluation des modèles de codage : la prolifération des benchmarks propriétaires rend les comparaisons quasi impossibles, tandis que des outils indépendants comme DeepSWE, qui produit un écart de 70 points entre modèles contre seulement 30 pour SWE-Bench Pro, restent sous-utilisés. Moonshot AI avait réussi une percée remarquée en avril lorsque K2.6 était arrivé en tête du classement hebdomadaire d'OpenRouter, fondé sur les décisions réelles de routage des développeurs. K2.7-Code, lui, n'a pas encore été soumis à ce type de validation externe. Pour les équipes en production, la bonne nouvelle est concrète : la réduction des tokens de raisonnement est testable immédiatement via l'API compatible OpenAI, sans refonte d'architecture. Mais la question de savoir si ces gains se maintiennent sur des tâches réelles, et si le modèle dépasse effectivement K2.6 sur des benchmarks indépendants, reste entière.

💬 Tout le monde annonce des gains à deux chiffres sur sa propre suite de tests, et Moonshot ne fait pas exception. La bonne nouvelle, c'est que la réduction de tokens de raisonnement est testable directement via l'API, sans refonte d'archi. K2.6 score 24 % sur DeepSWE au niveau de GPT-5.4-mini, alors avant de migrer, je veux voir K2.7 passer les mêmes épreuves.

LLMsOpinion

1 source

3Ahead of AI

Contrôler l'effort de raisonnement dans les LLM

Le 26 juin dernier, OpenAI a lancé la famille de modèles GPT-5.6, disponible en trois tailles, chacune proposant entre cinq et six niveaux d'effort de raisonnement configurables. Cette annonce intervient près de deux ans après le lancement d'o1 par OpenAI, qui avait popularisé les modèles de raisonnement basés sur les LLM, et environ quatre mois après DeepSeek-R1, qui avait détaillé une méthode d'apprentissage par renforcement à récompenses vérifiables (RLVR) pour entraîner ce type de modèles. Sebastian Raschka, chercheur reconnu dans le domaine, souligne dans son analyse que les modèles de raisonnement sont désormais devenus un standard incontournable de toute nouvelle génération de modèles. Il rappelle le principe central du RLVR popularisé par DeepSeek-R1 : fournir un signal de récompense binaire, zéro pour une réponse incorrecte, un pour une réponse correcte, uniquement sur des domaines vérifiables comme les mathématiques, via des outils comme SymPy ou WolframAlpha, ou le code, via des compilateurs et des tests unitaires. Fait notable, la trace de raisonnement intermédiaire elle-même n'est pas utilisée pour l'entraînement du modèle : seule la réponse finale et le respect du format comptent pour le calcul de la récompense. Cette généralisation des modes d'effort configurables change concrètement la manière dont les entreprises et les développeurs peuvent exploiter ces modèles. Plutôt que de choisir entre un modèle rapide et peu coûteux ou un modèle lent et performant, les utilisateurs peuvent désormais ajuster finement le curseur entre vitesse d'exécution et qualité de raisonnement selon la tâche à accomplir, un simple résumé de texte ne nécessitant pas le même effort qu'un problème mathématique complexe. Pour l'industrie, cela signifie une meilleure maîtrise des coûts de calcul et une adaptation plus fine des modèles aux usages professionnels réels, où toutes les requêtes n'exigent pas le même niveau de sophistication. C'est aussi le signe que la recherche sur le raisonnement des LLM a atteint une maturité suffisante pour passer d'une simple option binaire, raisonnement activé ou non, à un curseur continu de performance. Cette évolution s'inscrit dans un contexte de recherche particulièrement actif depuis la publication de DeepSeek-R1. Deux grandes approches permettent aujourd'hui d'améliorer les capacités de résolution de problèmes des modèles de raisonnement : l'optimisation à l'entraînement et l'optimisation à l'inférence, c'est-à-dire au moment de l'exécution. La question de savoir comment exploiter la trace de raisonnement intermédiaire pour améliorer l'entraînement, notamment via des modèles de récompense de processus, reste un sujet de recherche actif et non résolu. Raschka, auteur d'un livre de 440 pages intitulé Build A Reasoning Model (From Scratch), consacré à la construction de modèles de raisonnement à partir de zéro, prévoit que la prochaine étape naturelle de cette recherche portera sur le développement de modèles capables de moduler nativement leur propre effort de raisonnement selon la complexité de la tâche, plutôt que de dépendre uniquement de réglages externes fixés par l'utilisateur.

💬 Ce qui compte dans GPT-5.6, c'est pas le modèle, c'est le curseur : cinq ou six crans d'effort, ça veut dire qu'OpenAI admet enfin que le raisonnement a un prix et qu'il faut le doser comme du café. Bon, sur le papier ça sonne comme du réglage fin pour les entreprises qui veulent économiser du calcul, mais en vrai ça acte surtout que le mode "réfléchir" à deux vitesses d'il y a deux ans était un hack grossier. Reste à voir si les modèles apprendront un jour à choisir eux-mêmes leur effort, parce que pour l'instant c'est encore à l'utilisateur de deviner combien de réflexion vaut sa question.

LLMsOpinion

1 source

4MarkTechPost

Meituan lance LongCat-2.0 : un modele MoE open source de 1 600 milliards de parametres avec contexte natif de 1 million de tokens

Meituan a dévoilé LongCat-2.0, un modèle de langage à mélange d'experts (MoE) doté de 1 600 milliards de paramètres au total, dont environ 48 milliards sont activés par token. Ce successeur de LongCat-Flash, un modèle de 560 milliards de paramètres sorti en 2025, cible spécifiquement le codage agentique : compréhension, génération et exécution de code au sein de workflows autonomes. Le modèle se distingue par une fenêtre de contexte native d'un million de tokens et par le fait que son entraînement comme son déploiement ont été réalisés entièrement sur des superpods ASIC domestiques, sans recourir au matériel Nvidia. L'entraînement a mobilisé plus de 35 000 milliards de tokens sur des millions d'heures-accélérateur, et Meituan affirme n'avoir subi aucun retour arrière ni pic de perte irrécupérable durant tout le processus. Sur le plan des performances, l'entreprise revendique un score de 59,5 sur SWE-bench Pro, devançant légèrement GPT-5.5 (58,6), ainsi que 70,8 sur Terminal-Bench 2.1 et 77,3 sur SWE-bench Multilingual. Meituan situe également LongCat-2.0 au niveau de Gemini 3.1 Pro de Google en performance globale, tout en reconnaissant qu'il reste en retrait des systèmes de pointe sur des benchmarks d'agents plus généraux comme FORTE et BrowseComp. Ces chiffres proviennent uniquement des tests internes de Meituan et n'ont pas encore été confirmés par des classements indépendants. Cette annonce est importante car elle illustre la capacité croissante des entreprises chinoises à entraîner et servir des modèles de très grande taille sans dépendre des puces Nvidia, un enjeu stratégique majeur dans un contexte de restrictions à l'export américaines. Pour les développeurs et les équipes d'ingénierie, un contexte natif d'un million de tokens change concrètement l'usage possible d'un assistant de code : il devient possible d'analyser des dépôts entiers ou de longues sessions d'agent sans fragmentation artificielle. La stabilité revendiquée pendant l'entraînement sur du matériel non-Nvidia est aussi un signal fort, car l'écosystème logiciel autour des ASIC domestiques est réputé moins mature que celui de Nvidia, ce qui rend ce genre de résultat plus difficile à obtenir. Si les performances en codage agentique se confirment de façon indépendante, LongCat-2.0 pourrait s'imposer comme une alternative crédible aux modèles occidentaux pour les tâches d'ingénierie logicielle automatisée, un segment de plus en plus disputé entre laboratoires. L'architecture de LongCat-2.0 repose sur quatre innovations pensées pour maîtriser le coût d'un modèle de cette taille. Les experts à calcul nul laissent les tokens simples, comme la ponctuation, traverser le modèle sans traitement lourd, tandis qu'un contrôleur PID ajuste dynamiquement l'activation entre 33 et 56 milliards de paramètres selon la complexité du texte. La LongCat Sparse Attention, présentée comme une évolution du DeepSeek Sparse Attention, combine trois méthodes d'indexation, streaming, inter-couches et hiérarchique, pour éviter l'explosion quadratique du coût de calcul liée aux longs contextes. S'y ajoute un module d'embedding par n-grammes de 135 milliards de paramètres, censé mieux capturer les relations locales entre tokens, ainsi qu'un pipeline de post-entraînement baptisé MOPD qui fusionne trois groupes d'experts spécialisés en agents, raisonnement et interaction. Publié sous licence MIT le 30 juin 2026, LongCat-2.0 s'inscrit dans une compétition mondiale où chaque laboratoire cherche à repousser simultanément la taille des modèles, la longueur de contexte et l'efficacité matérielle.

💬 Ce qui compte vraiment ici, c'est pas le score SWE-bench, c'est le "sans Nvidia". Meituan entraîne 1600 milliards de paramètres sur des puces maison sans un seul pic de perte irrécupérable, et ça, ça vaut plus cher que battre GPT-5.5 de quelques points. La vraie question, c'est si le score tient sous un classement indépendant, parce que les benchmarks internes des labos chinois, on sait ce que ça vaut. Reste que la Chine vient de démontrer qu'elle peut scaler sans dépendre de Jensen Huang, et ça, les gens à Washington devraient s'en inquiéter plus que d'un simple leaderboard.

LLMsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic