Aller au contenu principal
Moonshot AI publie Kimi K2.7-Code : un modèle de code avec +21,8 % sur Kimi Code Bench v2 par rapport à K2.6
LLMsMarkTechPost4j· 2 min de lecture

Moonshot AI publie Kimi K2.7-Code : un modèle de code avec +21,8 % sur Kimi Code Bench v2 par rapport à K2.6

Source originale ↗·

Moonshot AI a publié cette semaine Kimi K2.7-Code, un nouveau modèle d'intelligence artificielle spécialisé dans la programmation et conçu pour des tâches d'ingénierie logicielle longues et complexes. Disponible sur Hugging Face sous licence MIT modifiée et accessible via l'API Kimi, le modèle repose sur une architecture Mixture-of-Experts avec 1 000 milliards de paramètres au total, dont 32 milliards activés par token. Il intègre 384 experts, une fenêtre de contexte de 256 000 tokens, et un encodeur visuel MoonViT de 400 millions de paramètres permettant de traiter texte, images et vidéos dans un même prompt. Le modèle pèse environ 595 Go sur disque, une cible clairement réservée aux serveurs, déployable via vLLM, SGLang ou KTransformers. Sur le Kimi Code Bench v2, il progresse de 50,9 à 62,0, soit une hausse de 21,8 % par rapport à son prédécesseur K2.6. Il surpasse également Claude Opus 4.8 sur le benchmark MCP Mark Verified (81,1 contre 76,4) et se rapproche de GPT-5.5 sur MLS Bench Lite.

Ce qui distingue K2.7-Code des modèles de génération de code classiques, c'est sa capacité à enchaîner de nombreuses étapes autonomes : lire des fichiers, modifier du code sur plusieurs modules, exécuter des outils, puis vérifier les résultats jusqu'à correction. Moonshot revendique également une réduction d'environ 30 % de la consommation de tokens de raisonnement par rapport à K2.6, un gain qui se répercute directement sur les coûts dans les workflows agentiques où chaque étape de planification, de retry et de vérification est facturée comme des tokens de sortie. Pour les équipes qui utilisent ce type de modèle sur des centaines ou milliers de cycles, cet effet est significatif : coût unitaire plus bas, étapes plus rapides, et davantage de marge avant d'atteindre les limites de contexte. Le modèle est également intégré à Kimi Code, une plateforme de codage par abonnement.

Kimi K2.7-Code s'inscrit dans une course intense entre laboratoires asiatiques et américains sur les modèles de codage agentique. Moonshot AI, startup chinoise fondée en 2023 et déjà connue pour ses modèles Kimi à très longue fenêtre de contexte, accélère sur ce segment en ciblant explicitement des cas d'usage professionnels : refactorisation à l'échelle d'un dépôt entier, revue de code sur de grandes pull requests, intégration CI/CD via le protocole MCP, et analyse combinée de logs, captures d'écran et code source. La contrainte du mode de raisonnement obligatoire, le désactiver provoque une erreur API, trahit une philosophie assumée : le modèle est pensé pour l'autonomie, pas pour la réponse instantanée. Face à GPT-5.5 et Claude Opus 4.8, K2.7-Code comble une partie de l'écart mais ne les dépasse pas sur la majorité des benchmarks, laissant ouverte la question de sa position réelle dans des conditions de production indépendantes.

💬 L'analyse de Mathieu

La réduction de 30 % des tokens de raisonnement, c'est le vrai chiffre à retenir ici, pas les benchmarks maison. Pour des workflows agentiques à l'échelle, ça change le calcul économique plus que n'importe quelle courbe de performance. 595 Go sur disque et le mode raisonnement non désactivable, ce sont deux signaux clairs : Moonshot construit pour les serveurs, pas pour les makers.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Moonshot AI publie Kimi K2.6 : codage longue portée et essaim d'agents à 300 sous-agents et 4 000 étapes coordonnées

Moonshot AI, le laboratoire chinois d'intelligence artificielle à l'origine de l'assistant Kimi, a publié en open source le modèle Kimi K2.6 le 21 avril 2026. Il s'agit d'un modèle multimodal natif de type Mixture-of-Experts (MoE) comptant 1 000 milliards de paramètres au total, dont seulement 32 milliards activés par token, répartis entre 384 experts spécialisés. Le modèle intègre nativement la vision via un encodeur MoonViT de 400 millions de paramètres, prend en charge des contextes de 256 000 tokens, et est disponible sur Kimi.com, l'application mobile, l'API ainsi que le CLI Kimi Code. Les poids sont publiés sur Hugging Face sous licence MIT modifiée. Sur le benchmark SWE-Bench Pro, qui mesure la capacité à résoudre de vrais tickets GitHub dans des dépôts professionnels, K2.6 obtient 58,6 points, devançant GPT-5.4 (57,7), Claude Opus 4.6 (53,4) et Gemini 3.1 Pro (54,2). Sur Humanity's Last Exam avec outils, il atteint 54,0, surpassant tous ses concurrents directs. Ces résultats sont significatifs parce qu'ils signalent un changement de nature dans ce que les modèles peuvent accomplir sans supervision humaine. Kimi K2.6 a été conçu pour des tâches de codage longue durée où l'agent s'exécute de façon autonome pendant plusieurs heures, effectue des milliers d'appels d'outils et coordonne jusqu'à 300 sous-agents spécialisés en parallèle sur des séquences de 4 000 étapes. Moonshot documente deux cas concrets : dans le premier, le modèle a téléchargé et déployé un modèle Qwen3.5-0.8B sur un Mac, puis a implémenté et optimisé l'inférence en Zig, un langage de programmation rare, sur plus de 4 000 appels d'outils consécutifs. Ces capacités intéressent directement les équipes d'ingénierie qui cherchent à automatiser des cycles de développement complets, pas seulement des corrections ponctuelles. Cette publication s'inscrit dans une course intense entre laboratoires américains et chinois pour dominer les modèles agentiques à grande échelle. Moonshot rejoint ainsi Anthropic, OpenAI et Google DeepMind dans la catégorie des modèles conçus pour opérer de façon prolongée dans des environnements réels, un segment jugé stratégique pour les usages professionnels. Le fait que K2.6 partage la même architecture que son prédécesseur K2.5 facilite la migration pour les équipes qui l'avaient déjà déployé. La compatibilité avec les frameworks d'inférence vLLM, SGLang et KTransformers, ainsi que l'ouverture complète des poids, positionnent ce modèle comme une alternative sérieuse aux offres propriétaires pour les organisations souhaitant garder la main sur leur infrastructure. La prochaine étape pour Moonshot sera de démontrer ces performances dans des déploiements industriels à grande échelle, au-delà des benchmarks.

UELes organisations européennes souhaitant maîtriser leur infrastructure IA disposent avec Kimi K2.6 d'une alternative open source sous licence MIT, déployable en local via vLLM ou SGLang, ce qui facilite la conformité au règlement européen sur l'IA en matière de traçabilité et de contrôle des données.

💬 300 sous-agents, 4 000 étapes coordonnées, open source, et il passe devant GPT-5.4 sur du vrai code GitHub. C'est le genre de résultat qui force à lever les yeux du clavier. Le cas Zig m'a accroché : implémenter et optimiser de l'inférence dans un langage de niche sur des milliers d'appels sans supervision, c'est pas un benchmark artificiel, c'est la vraie vie d'un projet qui déborde. La vraie question maintenant, c'est ce que ça donne sur des codebases d'équipe avec de la dette technique et des specs qui changent en cours de route.

LLMsActu
1 source
Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents
2MarkTechPost 

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

L'équipe Qwen d'Alibaba a publié Qwen3.6-27B, un modèle dense en open-weight de 27 milliards de paramètres disponible sous licence Apache 2.0 sur Hugging Face, en deux variantes : BF16 et FP8. Ce modèle se distingue notamment sur les benchmarks de codage agentique, où il surpasse des modèles bien plus imposants : il atteint 1 487 points sur QwenWebBench (génération de code frontend) contre 1 068 pour son prédécesseur Qwen3.5-27B, et 36,2 sur NL2Repo (génération de code à l'échelle d'un dépôt) contre 27,3. Sur SWE-bench Verified, référence du secteur pour les agents logiciels autonomes, il atteint 77,2, se rapprochant des 80,9 de Claude 4.5 Opus. Fait notable : ces performances dépassent celles du Qwen3.5-397B-A17B, un modèle Mixture-of-Experts quatorze fois plus grand. L'intérêt de cette publication tient à deux innovations concrètes. La première concerne le codage agentique : le modèle a été spécifiquement optimisé pour naviguer dans de larges bases de code, modifier plusieurs fichiers simultanément et produire du code exécutable cohérent, couvrant sept catégories allant du design web à la 3D. La seconde innovation, baptisée Thinking Preservation, répond à une limite structurelle des LLM actuels : par défaut, le raisonnement intermédiaire (chain-of-thought) n'est conservé que pour le message en cours et disparaît au tour suivant. Qwen3.6-27B propose une option pour conserver et réutiliser ces traces de raisonnement sur l'ensemble d'une conversation, ce qui réduit les tokens redondants et améliore l'utilisation du cache KV dans les workflows d'agents itératifs. Cette sortie s'inscrit dans une stratégie accélérée d'Alibaba sur les modèles ouverts : Qwen3.6-27B est le deuxième modèle de la famille Qwen3.6, après le Qwen3.6-35B-A3B (MoE à 3B paramètres actifs) lancé quelques semaines plus tôt, lui-même héritier de la série Qwen3.5. Sur le plan architectural, le modèle adopte une structure hybride originale répartie sur 64 couches : trois sublayers sur quatre utilisent Gated DeltaNet, une attention linéaire en O(n) bien plus efficace que l'attention classique quadratique O(n²), tandis qu'une couche sur quatre conserve l'attention standard. Cette conception permet de traiter de longs contextes avec un coût mémoire réduit, tout en maintenant la précision sur les tâches complexes. Compatible avec SGLang, vLLM et Hugging Face Transformers, le modèle vise directement les développeurs qui construisent des agents de codage, dans un segment où Anthropic et OpenAI restent pour l'instant en tête.

LLMsOpinion
1 source
3Latent Space 

[AINews] Moonshot Kimi K2.6 : le meilleur modèle open source du monde se met à jour pour rivaliser avec Opus 4.6 (avant DeepSeek v4 ?)

Moonshot AI a lancé Kimi K2.6 le 18 avril 2026, une mise à jour majeure de son modèle de langage open-weight qui consolide la position du laboratoire chinois en tête des modèles ouverts mondiaux. Ce modèle de type Mixture-of-Experts (MoE) totalise 1 000 milliards de paramètres, avec 32 milliards actifs à la fois, 384 experts, une fenêtre de contexte de 256 000 tokens, la multimodalité native et une quantification INT4. Disponible dès le jour de lancement sur vLLM, OpenRouter, Cloudflare Workers AI, Baseten et MLX, il revendique des records open source sur plusieurs benchmarks de référence : 54,0 sur HLE with tools, 58,6 sur SWE-Bench Pro, 76,7 sur SWE-Bench Multilingual et 83,2 sur BrowseComp. Moonshot revendique également des capacités d'exécution longue durée inédites : plus de 4 000 appels d'outils enchaînés, des sessions continues de plus de 12 heures, et jusqu'à 300 sous-agents parallèles via un système baptisé "Claw Groups". Simultanément, Alibaba a publié Qwen3.6-Max-Preview, un avant-goût de son prochain modèle phare, qui a atteint la 7e place dans le classement Code Arena, propulsant Alibaba au 3e rang des laboratoires dans cette catégorie. Ces sorties illustrent une accélération concrète des modèles ouverts chinois dans les domaines du code et des agents autonomes, deux terrains jusqu'ici dominés par des acteurs américains comme Anthropic, OpenAI et Google. La communauté des développeurs a rapidement adopté K2.6 comme alternative crédible à Claude ou GPT-4 pour des tâches d'infrastructure : des utilisateurs rapportent une exécution autonome sur cinq jours, des réécritures de noyaux système, et un moteur d'inférence en Zig surpassant LM Studio de 20 % en débit. K2.6 tient également tête à Gemini 3.1 Pro sur les tâches de design frontend avec un taux de victoire et d'égalité de 68,6 %, un terrain considéré comme le point fort de Google. Le contexte est celui d'une course ouverte et intense entre laboratoires. Depuis le lancement de K2.5 en janvier 2026, Moonshot occupe la première place parmi les labs chinois open source, dans un silence relatif de DeepSeek depuis la version v3.2, dont une v4 reste attendue. Moonshot est par ailleurs l'un des trois laboratoires chinois que l'équipe d'Anthropic a cités en février pour avoir potentiellement utilisé ses données d'entraînement sans autorisation. En parallèle, Hermes Agent, la pile d'agents open source la plus en vue du moment, a dépassé 100 000 étoiles sur GitHub en moins de deux mois, détrônant OpenClaw en croissance hebdomadaire. L'ensemble du tableau suggère que les modèles ouverts, portés par des labs asiatiques bien dotés, ne jouent plus dans une catégorie inférieure aux modèles propriétaires occidentaux.

UELes développeurs européens peuvent désormais déployer localement un modèle open-weight de niveau frontier, réduisant leur dépendance aux API propriétaires américaines soumises au Cloud Act.

LLMsActu
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
4MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic