
Kimi K2.7-Code réduit les tokens de raisonnement de 30 %, mais les praticiens contestent les benchmarks
Moonshot AI a publié cette semaine Kimi K2.7-Code, une mise à jour open source de sa famille de modèles de codage K2. Construit sur la même architecture mixture-of-experts à un trillion de paramètres que son prédécesseur K2.6, le modèle est disponible sous licence Modified MIT, téléchargeable sur HuggingFace et déployable via vLLM ou SGLang. Il s'intègre via une API compatible OpenAI, ce qui facilite la migration pour les équipes déjà en production avec K2.6. La principale promesse de Moonshot AI : une réduction de 30 % des tokens de raisonnement ("thinking tokens") par rapport à K2.6, ce qui se traduirait directement par une baisse des coûts d'inférence dans les workflows agentiques. Sur ses propres benchmarks propriétaires, l'entreprise annonce des gains de 21,8 % sur Kimi Code Bench v2, 11 % sur Program Bench et 31,5 % sur MLS Bench Lite. Sur le plan technique, le modèle génère désormais du code bas niveau en l'écrivant directement, là où K2.6 s'appuyait sur des wrappers de bibliothèques existantes, une approche censée améliorer la généralisation sur Rust, Go et Python.
Le problème, soulevé immédiatement par des praticiens, est que ces chiffres proviennent exclusivement de benchmarks internes à Moonshot. Le chercheur Elliot Arledge a testé K2.7-Code face à K2.6 et à Claude Fable 5 sur KernelBench-Hard, un benchmark public spécialisé dans l'optimisation de kernels GPU, et a publié ses logs complets. Son verdict : "K2.7 est plus honnête, mais pas plus capable." Sur cinq des six problèmes testés, K2.7-Code a bien produit des kernels Triton réels là où K2.6 utilisait des wrappers, mais deux de ces kernels ont échoué à cause de bugs du modèle lui-même. Sur le kernel MoE, le score a même régressé, passant de 0,222 à 0,157 par rapport à K2.6. Claude Fable 5, lui, "arrive en tête sur chaque cellule où il n'échoue pas honnêtement", note Arledge. Sugumaran Balasubramaniyan, développeur d'un routeur de tâches pour la plateforme Hermes Agent, a interpellé Moonshot directement : "Avec tout le respect dû, chaque modèle 'progresse' de deux chiffres sur sa propre suite de tests." Il a rappelé que K2.6 ne score que 24 % sur DeepSWE, un benchmark indépendant bien plus discriminant, au même niveau que GPT-5.4-mini, et a demandé si K2.7-Code serait soumis au même test.
Cette situation illustre un problème structurel dans l'évaluation des modèles de codage : la prolifération des benchmarks propriétaires rend les comparaisons quasi impossibles, tandis que des outils indépendants comme DeepSWE, qui produit un écart de 70 points entre modèles contre seulement 30 pour SWE-Bench Pro, restent sous-utilisés. Moonshot AI avait réussi une percée remarquée en avril lorsque K2.6 était arrivé en tête du classement hebdomadaire d'OpenRouter, fondé sur les décisions réelles de routage des développeurs. K2.7-Code, lui, n'a pas encore été soumis à ce type de validation externe. Pour les équipes en production, la bonne nouvelle est concrète : la réduction des tokens de raisonnement est testable immédiatement via l'API compatible OpenAI, sans refonte d'architecture. Mais la question de savoir si ces gains se maintiennent sur des tâches réelles, et si le modèle dépasse effectivement K2.6 sur des benchmarks indépendants, reste entière.
Tout le monde annonce des gains à deux chiffres sur sa propre suite de tests, et Moonshot ne fait pas exception. La bonne nouvelle, c'est que la réduction de tokens de raisonnement est testable directement via l'API, sans refonte d'archi. K2.6 score 24 % sur DeepSWE au niveau de GPT-5.4-mini, alors avant de migrer, je veux voir K2.7 passer les mêmes épreuves.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




