Aller au contenu principal
Z.ai lance GLM-5.2 : contexte de 1 million de tokens, deux niveaux d'effort de raisonnement, sans benchmarks au lancement
LLMsMarkTechPost2h· 2 min de lecture

Z.ai lance GLM-5.2 : contexte de 1 million de tokens, deux niveaux d'effort de raisonnement, sans benchmarks au lancement

Source originale ↗·

Z.ai a dévoilé le 13 juin 2026 GLM-5.2, troisième sortie majeure de sa gamme GLM-5 après GLM-5 (11 février), GLM-5-Turbo (15 mars) et GLM-5.1 (7 avril), soit quatre modèles de premier plan dédiés au codage en environ quatre mois. La caractéristique phare de ce nouveau modèle est sa fenêtre de contexte de 1 000 000 de tokens, une variante que Z.ai désigne glm-5.2[1m] dans sa propre configuration, contre 200 000 tokens pour GLM-5.1, soit une multiplication par cinq. Chaque réponse peut générer jusqu'à 131 072 tokens en sortie. Le modèle introduit également deux niveaux d'effort de raisonnement, High et Max, ce dernier étant recommandé par Z.ai pour les tâches de codage complexes en plusieurs étapes. Z.ai n'a publié aucun score de référence au lancement: ni SWE-bench, ni Terminal-Bench, ni Code Arena. La licence est MIT, mais les poids du modèle ne seront diffusés que la semaine suivante.

Cette fenêtre d'un million de tokens transforme concrètement le travail d'un agent de codage. L'agent peut désormais conserver un dépôt de taille moyenne entier en mémoire de travail, fichiers sources, tests, configuration et historique de conversation compris, évitant ainsi les résumés permanents qu'imposent les fenêtres plus réduites. En pratique, cela ouvre la voie à des refactorisations à l'échelle d'un dépôt complet: un agent peut charger un pipeline de données Python de quarante fichiers et suivre les dépendances entre fichiers en une seule session, sans avoir à recharger le code. Le modèle vise aussi les exécutions autonomes de longue haleine, ces boucles soutenues de planification, d'exécution, de test et de correction; à titre de comparaison, GLM-5.1 enchaînait environ 1 700 étapes d'agent en une session, avec des boucles autonomes pouvant durer jusqu'à huit heures. GLM-5.2 se présente enfin comme un remplaçant direct de Claude Code, l'utilisateur n'ayant qu'à changer l'URL de base et l'identifiant du modèle, et permet d'analyser de longs documents, spécifications, journaux ou transcriptions dépassant les 200 000 tokens.

Sur le plan technique, Z.ai n'a pas détaillé l'architecture de GLM-5.2 dans ses supports de lancement, mais selon les notes de la communauté, la base GLM-5 repose sur un modèle Mixture-of-Experts de 744 milliards de paramètres, dont 40 milliards sont activés par token, une ossature que GLM-5.1 avait conservée en réorientant seulement son post-entraînement. L'absence de tout chiffre de performance au lancement détonne dans un secteur où les classements façonnent la perception des modèles, d'autant que GLM-5.1 affichait un score de 58,4 sur SWE-bench Pro; la communication de Z.ai s'est concentrée sur la disponibilité, le contexte étendu et la feuille de route open source plutôt que sur les comparaisons. Ce positionnement illustre la cadence effrénée d'un acteur chinois qui multiplie les sorties pour s'imposer comme alternative crédible aux modèles propriétaires occidentaux, en misant à la fois sur une licence MIT permissive et sur une compatibilité directe avec les outils existants. Reste à voir si les benchmarks, attendus avec la publication des poids, confirmeront que cette fenêtre d'un million de tokens s'accompagne des gains de qualité que la concurrence exigera.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens
1MarkTechPost 

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu
1 source
Kimi K2.7-Code réduit les tokens de raisonnement de 30 %, mais les praticiens contestent les benchmarks
2VentureBeat AI 

Kimi K2.7-Code réduit les tokens de raisonnement de 30 %, mais les praticiens contestent les benchmarks

Moonshot AI a publié cette semaine Kimi K2.7-Code, une mise à jour open source de sa famille de modèles de codage K2. Construit sur la même architecture mixture-of-experts à un trillion de paramètres que son prédécesseur K2.6, le modèle est disponible sous licence Modified MIT, téléchargeable sur HuggingFace et déployable via vLLM ou SGLang. Il s'intègre via une API compatible OpenAI, ce qui facilite la migration pour les équipes déjà en production avec K2.6. La principale promesse de Moonshot AI : une réduction de 30 % des tokens de raisonnement ("thinking tokens") par rapport à K2.6, ce qui se traduirait directement par une baisse des coûts d'inférence dans les workflows agentiques. Sur ses propres benchmarks propriétaires, l'entreprise annonce des gains de 21,8 % sur Kimi Code Bench v2, 11 % sur Program Bench et 31,5 % sur MLS Bench Lite. Sur le plan technique, le modèle génère désormais du code bas niveau en l'écrivant directement, là où K2.6 s'appuyait sur des wrappers de bibliothèques existantes, une approche censée améliorer la généralisation sur Rust, Go et Python. Le problème, soulevé immédiatement par des praticiens, est que ces chiffres proviennent exclusivement de benchmarks internes à Moonshot. Le chercheur Elliot Arledge a testé K2.7-Code face à K2.6 et à Claude Fable 5 sur KernelBench-Hard, un benchmark public spécialisé dans l'optimisation de kernels GPU, et a publié ses logs complets. Son verdict : "K2.7 est plus honnête, mais pas plus capable." Sur cinq des six problèmes testés, K2.7-Code a bien produit des kernels Triton réels là où K2.6 utilisait des wrappers, mais deux de ces kernels ont échoué à cause de bugs du modèle lui-même. Sur le kernel MoE, le score a même régressé, passant de 0,222 à 0,157 par rapport à K2.6. Claude Fable 5, lui, "arrive en tête sur chaque cellule où il n'échoue pas honnêtement", note Arledge. Sugumaran Balasubramaniyan, développeur d'un routeur de tâches pour la plateforme Hermes Agent, a interpellé Moonshot directement : "Avec tout le respect dû, chaque modèle 'progresse' de deux chiffres sur sa propre suite de tests." Il a rappelé que K2.6 ne score que 24 % sur DeepSWE, un benchmark indépendant bien plus discriminant, au même niveau que GPT-5.4-mini, et a demandé si K2.7-Code serait soumis au même test. Cette situation illustre un problème structurel dans l'évaluation des modèles de codage : la prolifération des benchmarks propriétaires rend les comparaisons quasi impossibles, tandis que des outils indépendants comme DeepSWE, qui produit un écart de 70 points entre modèles contre seulement 30 pour SWE-Bench Pro, restent sous-utilisés. Moonshot AI avait réussi une percée remarquée en avril lorsque K2.6 était arrivé en tête du classement hebdomadaire d'OpenRouter, fondé sur les décisions réelles de routage des développeurs. K2.7-Code, lui, n'a pas encore été soumis à ce type de validation externe. Pour les équipes en production, la bonne nouvelle est concrète : la réduction des tokens de raisonnement est testable immédiatement via l'API compatible OpenAI, sans refonte d'architecture. Mais la question de savoir si ces gains se maintiennent sur des tâches réelles, et si le modèle dépasse effectivement K2.6 sur des benchmarks indépendants, reste entière.

💬 Tout le monde annonce des gains à deux chiffres sur sa propre suite de tests, et Moonshot ne fait pas exception. La bonne nouvelle, c'est que la réduction de tokens de raisonnement est testable directement via l'API, sans refonte d'archi. K2.6 score 24 % sur DeepSWE au niveau de GPT-5.4-mini, alors avant de migrer, je veux voir K2.7 passer les mêmes épreuves.

LLMsOpinion
1 source
Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM
3MarkTechPost 

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

💬 SWE-bench à 80%, c'est le chiffre qui claque, mais le vrai message est ailleurs : un score sans son contexte de scaffolding ne vaut rien, et les équipes qui déploient des agents en prod commencent à l'intégrer. Passer de 2% à 80% sur ce benchmark en deux ans, ça donne le vertige, mais ça mesure la réparation de code Python sur GitHub, pas l'autonomie universelle. Reste à voir si les prochains modèles seront entraînés dessus et rendront ces évaluations caduques avant même qu'elles soient adoptées en entreprise.

LLMsPaper
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
4MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic