Aller au contenu principal
LLMsLatent Space3sem

[AINews] Moonshot Kimi K2.6 : le meilleur modèle open source du monde se met à jour pour rivaliser avec Opus 4.6 (avant DeepSeek v4 ?)

Résumé IASource uniqueImpact UE
Source originale ↗·

Moonshot AI a lancé Kimi K2.6 le 18 avril 2026, une mise à jour majeure de son modèle de langage open-weight qui consolide la position du laboratoire chinois en tête des modèles ouverts mondiaux. Ce modèle de type Mixture-of-Experts (MoE) totalise 1 000 milliards de paramètres, avec 32 milliards actifs à la fois, 384 experts, une fenêtre de contexte de 256 000 tokens, la multimodalité native et une quantification INT4. Disponible dès le jour de lancement sur vLLM, OpenRouter, Cloudflare Workers AI, Baseten et MLX, il revendique des records open source sur plusieurs benchmarks de référence : 54,0 sur HLE with tools, 58,6 sur SWE-Bench Pro, 76,7 sur SWE-Bench Multilingual et 83,2 sur BrowseComp. Moonshot revendique également des capacités d'exécution longue durée inédites : plus de 4 000 appels d'outils enchaînés, des sessions continues de plus de 12 heures, et jusqu'à 300 sous-agents parallèles via un système baptisé "Claw Groups". Simultanément, Alibaba a publié Qwen3.6-Max-Preview, un avant-goût de son prochain modèle phare, qui a atteint la 7e place dans le classement Code Arena, propulsant Alibaba au 3e rang des laboratoires dans cette catégorie.

Ces sorties illustrent une accélération concrète des modèles ouverts chinois dans les domaines du code et des agents autonomes, deux terrains jusqu'ici dominés par des acteurs américains comme Anthropic, OpenAI et Google. La communauté des développeurs a rapidement adopté K2.6 comme alternative crédible à Claude ou GPT-4 pour des tâches d'infrastructure : des utilisateurs rapportent une exécution autonome sur cinq jours, des réécritures de noyaux système, et un moteur d'inférence en Zig surpassant LM Studio de 20 % en débit. K2.6 tient également tête à Gemini 3.1 Pro sur les tâches de design frontend avec un taux de victoire et d'égalité de 68,6 %, un terrain considéré comme le point fort de Google.

Le contexte est celui d'une course ouverte et intense entre laboratoires. Depuis le lancement de K2.5 en janvier 2026, Moonshot occupe la première place parmi les labs chinois open source, dans un silence relatif de DeepSeek depuis la version v3.2, dont une v4 reste attendue. Moonshot est par ailleurs l'un des trois laboratoires chinois que l'équipe d'Anthropic a cités en février pour avoir potentiellement utilisé ses données d'entraînement sans autorisation. En parallèle, Hermes Agent, la pile d'agents open source la plus en vue du moment, a dépassé 100 000 étoiles sur GitHub en moins de deux mois, détrônant OpenClaw en croissance hebdomadaire. L'ensemble du tableau suggère que les modèles ouverts, portés par des labs asiatiques bien dotés, ne jouent plus dans une catégorie inférieure aux modèles propriétaires occidentaux.

Impact France/UE

Les développeurs européens peuvent désormais déployer localement un modèle open-weight de niveau frontier, réduisant leur dépendance aux API propriétaires américaines soumises au Cloud Act.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

7 fois moins cher que Claude Opus 4.7 : la Chine dégaine DeepSeek-V4, un modèle open source conçu pour vous détourner des États-Unis
1Numerama 

7 fois moins cher que Claude Opus 4.7 : la Chine dégaine DeepSeek-V4, un modèle open source conçu pour vous détourner des États-Unis

DeepSeek vient de publier DeepSeek-V4-Preview, une famille de deux modèles open weight conçus pour rivaliser avec les meilleurs systèmes d'IA propriétaires américains. Le laboratoire chinois annonce un coût d'utilisation sept fois inférieur à celui de Claude Opus 4.7 d'Anthropic, ce qui en fait l'un des modèles les plus compétitifs du marché en termes de rapport performance-prix. Les poids sont accessibles librement, permettant à n'importe quelle entreprise ou développeur de les déployer sans dépendre des API américaines. L'impact est immédiat pour les équipes techniques et les entreprises qui cherchent à réduire leurs coûts d'inférence. Un modèle open weight de ce niveau de performance signifie qu'on peut l'héberger soi-même, adapter les poids, et s'affranchir des conditions d'utilisation imposées par OpenAI, Anthropic ou Google. Pour les marchés émergents et les entreprises européennes soucieuses de souveraineté numérique, c'est une alternative concrète aux géants américains. Ce lancement s'inscrit dans la continuité directe du coup de tonnerre de janvier 2025, lorsque DeepSeek-R1 avait provoqué un effondrement boursier des valeurs tech américaines en démontrant qu'on pouvait former des modèles de pointe à moindre coût. La Maison-Blanche surveille désormais de près les pratiques des laboratoires chinois, notamment sur les questions d'accès aux puces et de transfert technologique. Avec V4, DeepSeek confirme une stratégie délibérée : rendre l'open source suffisamment attractif pour décrocher les utilisateurs mondiaux des écosystèmes américains.

UELes entreprises européennes soucieuses de souveraineté numérique disposent d'une alternative open weight auto-hébergeable aux API américaines, réduisant leur dépendance aux conditions d'utilisation imposées par OpenAI, Anthropic ou Google.

💬 Sept fois moins cher que Claude Opus 4.7, open weight, que tu peux héberger toi-même sans dépendre d'une API américaine : on est loin du coup de com'. DeepSeek ne construit pas juste un modèle compétitif, ils construisent une porte de sortie pour toutes les boîtes qui en ont marre des conditions d'utilisation qui changent et des prix qui grimpent. Reste à tester si ça tient en prod.

LLMsOpinion
1 source
Gemma 4 : les meilleurs petits modèles multimodaux open source, nettement supérieurs à Gemma 3
2Latent Space 

Gemma 4 : les meilleurs petits modèles multimodaux open source, nettement supérieurs à Gemma 3

Google DeepMind a lancé Gemma 4 les 1er et 2 avril 2026, une nouvelle famille de modèles open-weight qui marque le bond le plus significatif de la série depuis un an. Quatre variantes sont disponibles : un modèle dense de 31 milliards de paramètres, un modèle MoE de 26 milliards (avec seulement 4 milliards de paramètres actifs, baptisé 26B-A4B), et deux modèles compacts orientés mobile et IoT, l'E4B et l'E2B, dotés de capacités multimodales natives incluant texte, vision et audio. Tous sont publiés sous licence Apache 2.0, un changement majeur par rapport aux licences plus restrictives des versions précédentes. Les grands modèles supportent une fenêtre de contexte allant jusqu'à 256 000 tokens, avec des capacités de function calling et de génération JSON structurée. Sur les benchmarks, le 31B se classe troisième parmi tous les modèles open-source selon l'Arena Leaderboard, et premier parmi les modèles américains ouverts, affichant un score de 85,7 % sur GPQA Diamond en mode raisonnement, à égalité avec des modèles bien plus massifs comme Kimi K2.5 (744 milliards de paramètres) ou GLM-5 de Z.ai (1 000 milliards de paramètres). Ces résultats sont importants pour l'ensemble de l'écosystème open-source car ils démontrent qu'un modèle de 31 milliards de paramètres peut rivaliser avec des architectures vingt fois plus grandes, rendant le déploiement local économiquement viable pour des entreprises de toutes tailles. Le support day-0 a été assuré simultanément par llama.cpp, Ollama, vLLM, LM Studio et Transformers, ce qui signifie que les développeurs ont pu télécharger et exécuter Gemma 4 dès le jour du lancement sur GPU consumer ou Mac Apple Silicon. Des benchmarks concrets rapportent 300 tokens par seconde en temps réel sur un M2 Ultra avec la variante 26B-A4B en quantification Q8_0. La licence Apache 2.0 autorise l'usage commercial sans restriction, ce qui lève un frein important à l'adoption en entreprise. Ce lancement intervient dans un contexte de fragilisation du leadership américain en matière de modèles ouverts : l'Allen Institute for AI traverse des turbulences internes, et le projet de modèle open-source d'OpenAI reste dans un statut incertain. Google DeepMind comble ainsi partiellement ce vide, capitalisant sur la traction de Gemma 3 qui a enregistré 400 millions de téléchargements et généré plus de 100 000 variantes communautaires. Les capacités audio et vision des modèles edge alimentent également des spéculations sur un rôle possible de Gemma 4 dans le cadre du partenariat Apple-Google pour le futur Siri sur appareil. Les prochaines semaines diront si cet avantage technique se traduit en adoption massive, notamment face à des concurrents comme Mistral ou les modèles Qwen d'Alibaba.

UELa licence Apache 2.0 sans restriction commerciale et les performances de Gemma 4 sur matériel grand public accentuent la pression concurrentielle sur Mistral et les acteurs européens du déploiement de modèles ouverts.

💬 Le 31B qui tient tête à des architectures de 700 milliards de paramètres, bon, sur les benchmarks ça impressionne vraiment. Mais ce qui change tout, c'est la licence Apache 2.0 sans condition commerciale, parce que c'était ça le vrai frein à l'adoption en entreprise. 300 tokens par seconde sur M2 Ultra avec la variante MoE, t'as plus besoin de louer du GPU pour faire tourner quelque chose de sérieux.

LLMsOpinion
1 source
DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5
3VentureBeat AI 

DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5

DeepSeek, la startup chinoise d'intelligence artificielle issue du fonds de trading quantitatif High-Flyer Capital Management, a publié DeepSeek-V4, un modèle de langage aux capacités proches des meilleurs systèmes mondiaux. Avec 1 600 milliards de paramètres organisés selon une architecture Mixture-of-Experts (MoE), ce modèle est disponible gratuitement sous licence MIT commercialement permissive, sur la plateforme Hugging Face et via l'API de DeepSeek. Son tarif d'accès : 1,74 dollar par million de tokens en entrée et 3,48 dollars par million en sortie, soit environ 5,22 dollars pour une utilisation combinée standard. Avec les entrées mises en cache, ce coût descend à 3,63 dollars. À titre de comparaison, GPT-5.5 d'OpenAI coûte 35 dollars pour la même transaction, et Claude Opus 4.7 d'Anthropic 30 dollars. Une version allégée, DeepSeek-V4-Flash, est proposée à seulement 0,42 dollar combiné, au prix d'une baisse de performance. Deli Chen, chercheur chez DeepSeek, a décrit cette sortie sur X comme "un travail d'amour", réalisé 484 jours après le lancement du V3, avec cette formule : "L'AGI appartient à tout le monde." L'impact économique est immédiat et brutal pour les acteurs américains du secteur. DeepSeek-V4-Pro coûte environ six fois moins cher que Claude Opus 4.7 et sept fois moins que GPT-5.5 en conditions normales, et jusqu'à dix fois moins avec les entrées en cache. La version Flash, elle, revient à moins de 1 % du tarif des modèles premium américains. Pour les entreprises traitant de gros volumes de requêtes, cette différence de coûts transforme radicalement le calcul de rentabilité : des tâches d'automatisation jugées trop onéreuses avec les modèles fermés américains deviennent soudainement viables. Développeurs et directions techniques sont contraints de réévaluer leurs choix d'infrastructure, et les fournisseurs positionnés sur le haut de gamme voient leur argument tarifaire sérieusement fragilisé. Ce lancement s'inscrit dans la continuité du "moment DeepSeek" de janvier 2025, quand le modèle R1 avait stupéfait la communauté internationale en rivalisant avec les meilleurs systèmes propriétaires américains à une fraction de leur coût de développement. Depuis, la startup avait publié plusieurs mises à jour de ses séries R1 et V3, mais la communauté attendait un successeur de grande envergure. Ce DeepSeek-V4 est d'ores et déjà qualifié de "deuxième moment DeepSeek", et il ravive les débats sur la pérennité commerciale des modèles fermés face aux alternatives open source chinoises. Il soulève également des questions sur la capacité de DeepSeek à maintenir cette trajectoire malgré les restrictions américaines sur l'exportation de puces haut de gamme, contraintes que l'entreprise semble contourner avec une efficacité croissante grâce à des optimisations architecturales poussées.

UEL'écart de prix, jusqu'à six fois inférieur aux modèles premium américains, permet aux entreprises européennes de rentabiliser des projets d'automatisation IA jusqu'ici jugés trop coûteux.

💬 Six fois moins cher qu'Opus 4.7, performances comparables, licence MIT. C'est exactement le scénario que les équipes produit chez OpenAI et Anthropic essayaient de ne pas avoir à gérer, et il arrive quand même. "L'AGI appartient à tout le monde", dit DeepSeek, bon, sur le papier c'est beau, mais le vrai truc c'est que des automatisations qu'on refusait de budgéter il y a six mois deviennent rentables dès ce soir.

LLMsOpinion
1 source
4MarkTechPost 

Moonshot AI publie Kimi K2.6 : codage longue portée et essaim d'agents à 300 sous-agents et 4 000 étapes coordonnées

Moonshot AI, le laboratoire chinois d'intelligence artificielle à l'origine de l'assistant Kimi, a publié en open source le modèle Kimi K2.6 le 21 avril 2026. Il s'agit d'un modèle multimodal natif de type Mixture-of-Experts (MoE) comptant 1 000 milliards de paramètres au total, dont seulement 32 milliards activés par token, répartis entre 384 experts spécialisés. Le modèle intègre nativement la vision via un encodeur MoonViT de 400 millions de paramètres, prend en charge des contextes de 256 000 tokens, et est disponible sur Kimi.com, l'application mobile, l'API ainsi que le CLI Kimi Code. Les poids sont publiés sur Hugging Face sous licence MIT modifiée. Sur le benchmark SWE-Bench Pro, qui mesure la capacité à résoudre de vrais tickets GitHub dans des dépôts professionnels, K2.6 obtient 58,6 points, devançant GPT-5.4 (57,7), Claude Opus 4.6 (53,4) et Gemini 3.1 Pro (54,2). Sur Humanity's Last Exam avec outils, il atteint 54,0, surpassant tous ses concurrents directs. Ces résultats sont significatifs parce qu'ils signalent un changement de nature dans ce que les modèles peuvent accomplir sans supervision humaine. Kimi K2.6 a été conçu pour des tâches de codage longue durée où l'agent s'exécute de façon autonome pendant plusieurs heures, effectue des milliers d'appels d'outils et coordonne jusqu'à 300 sous-agents spécialisés en parallèle sur des séquences de 4 000 étapes. Moonshot documente deux cas concrets : dans le premier, le modèle a téléchargé et déployé un modèle Qwen3.5-0.8B sur un Mac, puis a implémenté et optimisé l'inférence en Zig, un langage de programmation rare, sur plus de 4 000 appels d'outils consécutifs. Ces capacités intéressent directement les équipes d'ingénierie qui cherchent à automatiser des cycles de développement complets, pas seulement des corrections ponctuelles. Cette publication s'inscrit dans une course intense entre laboratoires américains et chinois pour dominer les modèles agentiques à grande échelle. Moonshot rejoint ainsi Anthropic, OpenAI et Google DeepMind dans la catégorie des modèles conçus pour opérer de façon prolongée dans des environnements réels, un segment jugé stratégique pour les usages professionnels. Le fait que K2.6 partage la même architecture que son prédécesseur K2.5 facilite la migration pour les équipes qui l'avaient déjà déployé. La compatibilité avec les frameworks d'inférence vLLM, SGLang et KTransformers, ainsi que l'ouverture complète des poids, positionnent ce modèle comme une alternative sérieuse aux offres propriétaires pour les organisations souhaitant garder la main sur leur infrastructure. La prochaine étape pour Moonshot sera de démontrer ces performances dans des déploiements industriels à grande échelle, au-delà des benchmarks.

UELes organisations européennes souhaitant maîtriser leur infrastructure IA disposent avec Kimi K2.6 d'une alternative open source sous licence MIT, déployable en local via vLLM ou SGLang, ce qui facilite la conformité au règlement européen sur l'IA en matière de traçabilité et de contrôle des données.

💬 300 sous-agents, 4 000 étapes coordonnées, open source, et il passe devant GPT-5.4 sur du vrai code GitHub. C'est le genre de résultat qui force à lever les yeux du clavier. Le cas Zig m'a accroché : implémenter et optimiser de l'inférence dans un langage de niche sur des milliers d'appels sans supervision, c'est pas un benchmark artificiel, c'est la vraie vie d'un projet qui déborde. La vraie question maintenant, c'est ce que ça donne sur des codebases d'équipe avec de la dette technique et des specs qui changent en cours de route.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour