Kimi de Moonshot AI : l’outil IA de nouvelle…

55

1Latent Space

Kimi K3 de Moonshot AI rejoint le peloton de tête des modèles frontières selon les benchmarks

Le modèle Kimi K3 du laboratoire chinois Moonshot AI a dominé l'actualité IA des 16 et 17 juillet 2026, provoquant une réévaluation générale de la position des modèles chinois en accès ouvert face à la frontière technologique. Selon Artificial Analysis, le nombre de laboratoires dépassant un score de 51 sur son Intelligence Index est passé de deux à six en environ six semaines, Kimi K3 obtenant un score de 57, derrière Claude Fable 5 (60) mais devant Opus 4.8 (56). Sur l'indice des agents de codage, K3 atteint également 57 points, à égalité avec GPT-5.6 Terra et GPT-5.5, devant Opus 4.8, avec 84% sur Terminal-Bench v2, 64% sur DeepSWE et 23% sur SWE-Atlas-QnA. Le modèle s'est particulièrement distingué sur les tâches de développement frontend : selon Arena, K3 a permis à la Chine de dépasser les États-Unis pour la première fois sur le Frontend Code Arena, plusieurs utilisateurs rapportant que le modèle égale ou surpasse Fable sur des tâches visuelles comme la création de tableaux de bord interactifs. Par ailleurs, Databricks a bouclé une levée de fonds en série M de 188 milliards de dollars, et la plateforme OpenRouter ferait l'objet de discussions de rachat, évoquées par son cofondateur Alex Atallah lors d'une intervention publique. Ce lancement dépasse le simple exercice de benchmarks : il relance le débat sur la nature réelle de l'avantage compétitif entre laboratoires américains et chinois. Plusieurs analystes estiment que K3 fragilise la thèse selon laquelle la capacité de pointe dépend avant tout de la puissance de calcul brute, pointant plutôt vers des choix d'architecture comme le routage MoE (mixture of experts), la quantification, la curation des données d'entraînement et une infrastructure pensée pour la rareté de calcul, à l'image de la pile logicielle "Mooncake" développée par Moonshot. Pour l'industrie, cela signifie que l'écart entre modèles fermés occidentaux et modèles ouverts chinois pourrait se réduire plus vite que prévu, non pas en rattrapant les investissements en capital des géants américains, mais en améliorant l'efficacité par calcul grâce à un meilleur post-entraînement et une meilleure conversion des capacités en usages concrets. Cette annonce s'inscrit dans un contexte plus large de compétition entre laboratoires ouverts et fermés, où les avis restent partagés sur l'ampleur réelle du rattrapage chinois. Certains commentateurs, comme le chercheur cité sous le pseudonyme @scaling01, restent prudents et estiment que K3 accuse encore plusieurs mois de retard sur des critères plus larges tels que la généralité, l'efficacité énergétique ou les évaluations non publiques, tandis que d'autres, plus optimistes, jugent le modèle proche de la frontière, voire supérieur sur certains sous-ensembles précis. Sur le plan des coûts, les avis divergent également : si Artificial Analysis présente K3 comme relativement efficace pour ses performances, d'autres observateurs font remarquer que l'efficacité réelle en tokens et le débit de traitement réduisent souvent l'avantage tarifaire affiché face à des concurrents comme GPT-5.6 Sol. En parallèle, la conférence AI Engineer de New York a ouvert ses candidatures pour des interventions centrées sur l'intersection entre intelligence artificielle et finance, signe de l'intérêt croissant du secteur pour des applications sectorielles concrètes de ces avancées technologiques.

LLMsActu

1 source

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

46

2Le Big Data

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion

1 source

SpaceXAI lance Grok 4.5 : Tout savoir sur la nouvelle IA de code d’Elon Musk

47

3Le Big Data

SpaceXAI lance Grok 4.5 : Tout savoir sur la nouvelle IA de code d’Elon Musk

SpaceXAI, l'entreprise d'Elon Musk, a officiellement lancé Grok 4.5 le 8 juillet 2026, après plusieurs semaines de tests en version bêta. Présenté comme le modèle le plus avancé de la société, il cible en priorité le développement logiciel, les tâches agentiques (où l'IA enchaîne plusieurs actions de façon autonome) et les usages professionnels. Musk le classe dans la catégorie des modèles « Opus », en référence directe à la gamme d'Anthropic. Techniquement, Grok 4.5 repose sur une architecture de 1 500 milliards de paramètres entraînée grâce au supercalculateur Colossus, avec la participation de Cursor comme partenaire d'entraînement. Sur le plan des performances, il affiche 83,3 % sur Terminal-Bench 2.1 contre 78,9 % pour Claude Opus 4.8, et 62 % sur DeepSWE 1.0 contre 55,8 % pour son rival. En revanche, Claude Opus 4.8 garde l'avantage sur SWE-Bench Multilingual (84,4 % contre 78 %) et sur SWE-Bench Pro, qui évalue la correction de vrais bugs (69,2 % contre 64,7 %). Ces chiffres comptent parce qu'ils redessinent la concurrence sur le marché des IA de code, un segment devenu stratégique pour les développeurs et les entreprises tech. Grok 4.5 revendique un net avantage économique : il génère jusqu'à 80 tokens par seconde, facturés 2 dollars par million de tokens en entrée et 6 dollars en sortie, et SpaceXAI affirme qu'il consomme jusqu'à quatre fois moins de tokens que Claude Opus 4.8 pour une tâche équivalente. Concrètement, cela pourrait réduire sensiblement la facture des professionnels qui l'utilisent au quotidien via Grok Build, Cursor ou une clé API, même si le modèle ne domine pas systématiquement les benchmarks de programmation les plus exigeants. Ce lancement illustre l'accélération continue de la course aux modèles d'IA, où chaque acteur promet d'être plus rapide, plus performant et moins cher que le précédent. Il s'inscrit aussi dans un contexte de surveillance croissante de la part des autorités américaines : la sortie de Grok 4.5 avait été retardée le mois dernier à la demande du gouvernement des États-Unis, qui souhaitait examiner les risques d'utilisation abusive des modèles d'IA les plus avancés, un scénario déjà observé avec GPT 5.6 et Fable 5. Pour les utilisateurs européens, la patience reste de mise puisque le déploiement dans l'Union européenne n'est prévu que pour la mi-juillet. Reste à voir si SpaceXAI parviendra à transformer cet avantage tarifaire en gains de parts de marché face à Anthropic et OpenAI, dans un secteur où l'écart entre les modèles se resserre benchmark après benchmark.

UELe déploiement de Grok 4.5 dans l'Union européenne est prévu pour la mi-juillet 2026, sans impact réglementaire ou concurrentiel direct pour les entreprises européennes à ce stade.

LLMsOpinion

1 source

50

4MarkTechPost

Moonshot AI dévoile Kimi K3, un modèle open MoE de 2,8 billions de paramètres avec Kimi Delta Attention et un contexte d'1M tokens

Moonshot AI a publié le 17 juillet 2026 son nouveau modèle Kimi K3, un système à 2,8 billions de paramètres doté d'une vision native et d'une fenêtre de contexte d'un million de tokens. L'entreprise chinoise le présente comme le premier modèle ouvert à franchir la barre des 3 000 milliards de paramètres, une taille encore inédite en open source. K3 repose sur une architecture Mixture-of-Experts éparse combinant deux innovations : Kimi Delta Attention (KDA), un mécanisme d'attention linéaire hybride qui accélérerait le décodage jusqu'à 6,3 fois sur des contextes d'un million de tokens, et Attention Residuals (AttnRes), qui optimise la circulation de l'information à travers la profondeur du réseau pour un gain d'efficacité d'entraînement d'environ 25 %, moyennant moins de 2 % de coût supplémentaire. Le modèle n'active que 16 de ses 896 experts à la fois grâce à un système baptisé Stable LatentMoE, avec un mécanisme de répartition appelé Quantile Balancing qui élimine les réglages heuristiques habituels. Combinées à d'autres innovations comme Per-Head Muon ou Gated MLA, ces optimisations offrent selon Moonshot une efficacité d'apprentissage 2,5 fois supérieure à celle de son prédécesseur Kimi K2. Pour le déploiement, K3 utilise une quantification en MXFP4 et MXFP8, et Moonshot recommande des configurations d'au moins 64 accélérateurs ; l'entreprise a également contribué une implémentation de KDA au projet vLLM. Sur le plan des performances, Kimi K3 reste globalement en retrait par rapport aux modèles propriétaires les plus puissants du marché, Claude Fable 5 d'Anthropic et GPT 5.6 Sol d'OpenAI, mais il les dépasse sur plusieurs benchmarks spécifiques : Program Bench, SWE Marathon, BrowseComp, Automation Bench et OmniDocBench, ce dernier mesurant l'analyse de documents avec un score de 91,1. Il reste derrière Fable 5 sur les tâches d'ingénierie logicielle complexes (FrontierSWE) et de raisonnement expert (HLE-Full), et derrière GPT 5.6 Sol sur DeepSWE. Pour les développeurs et les entreprises, cela signifie l'arrivée d'une alternative ouverte capable de rivaliser avec les meilleurs modèles fermés sur des cas d'usage concrets comme l'ingénierie logicielle à l'échelle d'un dépôt entier, la recherche automatisée ou le traitement de documents complexes, sans les coûts de licence ni les contraintes d'accès des API propriétaires. Ce lancement s'inscrit dans une course effrénée à la taille et à l'efficacité des modèles ouverts, où Moonshot a occupé neuf des douze derniers mois la position de plus gros modèle disponible en open source. Face à des géants comme Anthropic, OpenAI ou Google, mais aussi face à d'autres acteurs chinois comme Zhipu avec sa gamme GLM, l'entreprise mise sur la sparsité et des architectures d'attention plus efficaces pour compenser l'écart de ressources de calcul. Les cas d'usage mis en avant, agents de codage autonomes fonctionnant sur de longues sessions avec un minimum de supervision humaine, itération entre code et captures d'écran grâce à la vision intégrée, ou encore production de rapports de recherche approfondis s'appuyant sur des milliers de pages consultées, dessinent une trajectoire claire vers des systèmes d'IA capables de mener des tâches complexes en autonomie prolongée. La suite dépendra de l'adoption par la communauté open source et de la capacité de Moonshot à maintenir ce rythme d'innovation architecturale.

💬 Kimi K3 franchit les 2,8 billions de paramètres, mais le chiffre qui compte c'est le 6,3x sur le décodage long contexte, c'est ça qui rend un million de tokens réellement exploitable en prod et pas juste un chiffre marketing. Moonshot tient le rythme depuis neuf mois sur douze en tête de l'open source, et ça commence à ressembler à une stratégie plus qu'à un coup ponctuel. Reste que sur les tâches d'ingénierie complexe, Fable 5 et GPT 5.6 Sol gardent l'avance, l'open source rattrape sur les cas d'usage concrets, pas encore sur le raisonnement pur.

LLMsActu

1 source

Kimi de Moonshot AI : l’outil IA de nouvelle génération

À lire aussi

Kimi K3 de Moonshot AI rejoint le peloton de tête des modèles frontières selon les benchmarks

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

SpaceXAI lance Grok 4.5 : Tout savoir sur la nouvelle IA de code d’Elon Musk

Moonshot AI dévoile Kimi K3, un modèle open MoE de 2,8 billions de paramètres avec Kimi Delta Attention et un contexte d'1M tokens