Aller au contenu principal
Moore Threads annonce une forte croissance de ses revenus au T1 et progresse vers un cluster de 100 000 GPU
InfrastructurePandaily6sem· 2 min de lecture

Moore Threads annonce une forte croissance de ses revenus au T1 et progresse vers un cluster de 100 000 GPU

Source originale ↗·

Moore Threads (cotée à Shanghai sous le symbole 688795.SH) a publié le 26 avril 2026 ses résultats annuels 2025 et ses chiffres du premier trimestre 2026, confirmant une trajectoire de croissance exceptionnelle. Le fabricant chinois de GPU a enregistré un chiffre d'affaires de 1,505 milliard de yuans (environ 208 millions de dollars) en 2025, soit une hausse de 243 % sur un an, avec un taux de croissance annuel composé dépassant 200 % entre 2022 et 2024. La marge brute atteint 65,57 %, l'une des plus élevées du secteur, pour un bénéfice brut de 987 millions de yuans. Les pertes nettes continuent de se réduire : hors rémunérations en actions, la perte nette s'établit à 648 millions de yuans, en recul de 56,65 % sur un an. La dynamique s'est encore accélérée au premier trimestre 2026, avec un chiffre d'affaires de 738 millions de yuans (+155 % sur un an) et un bénéfice net attributable aux actionnaires redevenu positif à 29 millions de yuans. En mars 2026, la société a décroché une commande de 660 millions de yuans pour son cluster de calcul intelligent KUAE, illustrant sa capacité à déployer des infrastructures à grande échelle.

Ces résultats positionnent Moore Threads comme l'un des acteurs les plus crédibles de l'alternative chinoise à Nvidia. La rentabilité naissante du premier trimestre 2026 est un signal fort : l'entreprise n'est plus seulement en phase d'investissement, elle commence à monétiser concrètement ses GPU auprès d'opérateurs cloud, d'acteurs de l'IA incarnée, de l'éducation intelligente et du secteur manufacturier. Son GPU phare, le MTT S5000, délivre jusqu'à 1 000 TFLOPS de calcul IA dense par carte, rivalisant selon la société avec les produits leaders mondiaux. Le cluster KUAE, construit autour de ce GPU, supporte l'entraînement de modèles à mille milliards de paramètres et a déjà été déployé commercialement avec des métriques atteignant les standards internationaux, ce qui représente une validation technique significative pour un fabricant émergent.

Moore Threads a été fondée en 2020, dans un contexte de tensions croissantes entre les États-Unis et la Chine autour des semi-conducteurs avancés. Les restrictions américaines sur les exportations de GPU Nvidia vers la Chine ont créé un vide que des acteurs comme Moore Threads, Biren ou Cambricon cherchent à combler. La société a investi 1,305 milliard de yuans en R&D en 2025, soit 86,68 % de son chiffre d'affaires, et détient 806 droits de propriété intellectuelle dont 590 brevets d'invention. Elle développe actuellement une nouvelle génération de clusters ultra-larges basée sur son architecture "Huagang", visant des systèmes à 100 000 GPU. Parallèlement, son écosystème logiciel MUSA est conçu pour être compatible avec CUDA, ce qui facilite l'adoption par les développeurs déjà familiers des outils Nvidia. La question centrale pour les prochains trimestres sera de savoir si cette indépendance technologique revendiquée résistera à l'épreuve des déploiements à très grande échelle.

Impact France/UE

La montée en puissance de Moore Threads comme alternative chinoise crédible à Nvidia, dans le contexte des restrictions américaines sur les exportations de GPU, pourrait à terme diversifier les options d'approvisionnement en puces IA pour les entreprises et datacenters européens.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU
1VentureBeat AI 

Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU

Moins d'une semaine après avoir bouclé la plus grande introduction en bourse du secteur tech en 2026, Cerebras Systems a annoncé lundi qu'il fait tourner Kimi K2.6, un modèle open-weight de mille milliards de paramètres développé par la société pékinoise Moonshot AI, à près de 1 000 tokens par seconde pour ses clients entreprises. Le chiffre exact, vérifié de manière indépendante par la firme de benchmarking Artificial Analysis, s'établit à 981 tokens par seconde en sortie, soit 6,7 fois plus rapide que le meilleur fournisseur cloud sur GPU et 23 fois plus rapide que la médiane. Sur une requête d'assistance au code impliquant 10 000 tokens en entrée, Cerebras a livré la réponse complète en 5,6 secondes, contre 163,7 secondes sur l'endpoint officiel de Kimi, soit une amélioration d'un facteur 29. La société, basée à Sunnyvale et désormais valorisée 95 milliards de dollars après avoir levé 5,55 milliards lors de son IPO, signe ici son entrée en production sur les modèles de taille maximale, un palier qu'elle n'avait jamais encore franchi. L'enjeu dépasse la performance brute. Kimi K2.6 est l'un des premiers modèles open-weight que les entreprises peuvent crédiblement utiliser comme alternative aux API fermées d'Anthropic ou d'OpenAI, notamment pour les tâches de codage et d'agents autonomes qui représentent aujourd'hui les cas d'usage les plus rentables des grands modèles de langage. James Wang, directeur marketing produit de Cerebras, est direct : les clients sont motivés avant tout par le besoin d'une alternative à Anthropic, dont les modèles sont excellents mais coûteux et régulièrement saturés. Il cite l'exemple d'une application tombée en panne un week-end faute de capacité disponible sur l'API d'Anthropic, une mésaventure qui résonne fortement auprès des acheteurs en entreprise. La rapidité de Cerebras n'est donc pas qu'un argument marketing : dans les workflows agentiques, où chaque seconde d'attente se multiplie par des dizaines d'appels successifs, la vitesse d'inférence devient un avantage compétitif structurel. Kimi K2.6 a été publié le 20 avril par Moonshot AI, une startup fondée en 2023 par des anciens de l'université Tsinghua et considérée comme l'une des entreprises "AI Tiger" de Chine. Le modèle utilise une architecture Mixture-of-Experts avec 32 milliards de paramètres activés par token sur un total de 1 000 milliards, 384 experts dont 8 sélectionnés par passe, et une fenêtre de contexte de 256 000 tokens. Il occupe la première place sur SWE-Bench Pro avec un score de 58,6, dépassant Claude Opus 4.6 et égalant GPT-5.4. Le choix de ce modèle chinois comme vitrine d'un fabricant de puces américain soulève néanmoins une dimension géopolitique que l'article laisse en suspens : Cerebras joue ici à la fois la carte de la performance et celle de l'ouverture, dans un contexte de tensions croissantes autour des technologies d'IA entre les deux pays.

UELes entreprises européennes dépendantes de solutions cloud d'inférence LLM disposent d'une nouvelle alternative matérielle avec des vitesses vérifiées jusqu'à 6,7 fois supérieures aux meilleurs fournisseurs GPU, ce qui peut réduire les risques de saturation de capacité pour les workflows agentiques.

💬 981 tokens par seconde, vérifié par un tiers indépendant, sur un modèle à 1000 milliards de paramètres. Dans les workflows agentiques où chaque appel LLM en déclenche dix autres, c'est pas un argument marketing, c'est du cash économisé et des pannes évitées. Et le truc le plus savoureux, c'est qu'un fabricant de puces américain fraîchement introduit en bourse choisit un modèle chinois comme vitrine, et que l'article passe presque dessus comme si c'était un détail.

InfrastructureOpinion
1 source
Anthropic utilise le datacenter Colossus-1 de SpaceX et ses 220 000 GPU pour alimenter Claude
2The Decoder 

Anthropic utilise le datacenter Colossus-1 de SpaceX et ses 220 000 GPU pour alimenter Claude

Anthropic va s'emparer de la totalité de la capacité de calcul du centre de données Colossus-1 de SpaceX, soit plus de 300 mégawatts d'électricité et plus de 220 000 GPU NVIDIA. Cette infrastructure colossale, attendue en ligne d'ici un mois, sera entièrement dédiée à alimenter les modèles Claude de la startup californienne. En parallèle, Anthropic annonce le doublement des limites de débit pour Claude Code et une augmentation significative des quotas d'API pour ses modèles Opus. Cette prise de contrôle représente un bond considérable en termes de puissance de calcul disponible pour Anthropic, directement répercuté sur les développeurs et entreprises qui utilisent ses API. Doubler les limites de Claude Code signifie concrètement que les équipes de développement pourront automatiser davantage de tâches sans se heurter aux restrictions actuelles, tandis que la hausse des quotas Opus ouvre la voie à des déploiements en production plus intensifs. C'est un signal fort envoyé aux clients enterprise qui hésitaient à migrer vers Claude en raison des contraintes de capacité. Colossus-1 a été initialement construit par xAI, la société d'intelligence artificielle d'Elon Musk, pour entraîner ses propres modèles Grok. Le fait qu'Anthropic en récupère la pleine capacité illustre la guerre d'infrastructure qui se joue en coulisse entre les grands laboratoires d'IA : disposer de suffisamment de GPU est désormais aussi stratégique que la qualité des modèles eux-mêmes. Avec ce partenariat, Anthropic consolide sa position face à OpenAI et Google DeepMind dans la course aux ressources de calcul à grande échelle.

UELes développeurs et entreprises européennes utilisant l'API Claude bénéficieront directement du doublement des quotas Claude Code et de la hausse des limites Opus, facilitant les déploiements en production à grande échelle.

💬 220 000 GPU construits par xAI pour Grok, qui finissent chez Anthropic. C'est un peu la blague de l'année, mais ça dit surtout que l'infrastructure est devenue aussi stratégique que les modèles eux-mêmes. Ce qui m'intéresse directement, c'est le doublement des limites Claude Code: les pipelines qui plafonnaient vont enfin pouvoir tourner sans jongler avec les quotas.

InfrastructureOpinion
1 source
Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public
3MarkTechPost 

Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public

Xiaomi, en collaboration avec le groupe système TileRT, a publié MiMo-V2.5-Pro-UltraSpeed, un mode de serving haute vitesse pour son modèle existant MiMo-V2.5-Pro. Ce modèle, basé sur une architecture Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, franchit pour la première fois la barre des 1 000 tokens par seconde sur cette classe de modèles, avec des pics mesurés à 1 200 tokens/s. Ce qui rend la performance remarquable, c'est le matériel utilisé : non pas des puces custom ou des accélérateurs spécialisés, mais un nœud standard de 8 GPU grand public. Le résultat découle de trois techniques coordonnées que Xiaomi qualifie de "codesign modèle-système extrême" : la quantification FP4 (format MXFP4 appliqué sélectivement aux experts MoE, le reste restant en FP8), le décodage spéculatif DFlash, et le moteur d'exécution TileRT. La qualité des benchmarks reste comparable au modèle original grâce à un entraînement avec conscience de la quantification (QAT). Ces vitesses changent concrètement ce qu'il est possible de faire avec un grand modèle en production. À 1 000 tokens/s, des tâches qui supposaient d'attendre plusieurs secondes entre chaque étape deviennent quasi-instantanées : un agent de code peut enchaîner les cycles génération-exécution-correction sans temps mort perceptible, des stratégies de raisonnement Best-of-N peuvent faire tourner des dizaines de branches en parallèle dans le même temps horloge, et des usages temps réel comme la détection de fraude ou le dialogue interactif deviennent viables sans infrastructure dédiée. Les démos publiées montrent la génération d'un jeu Snake en une dizaine de secondes, illustrant la fluidité atteinte pour des tâches de prototypage rapide. DFlash, la pièce centrale du gain de vitesse, résout un problème structurel du décodage spéculatif classique : le modèle brouillon génère les tokens un par un, créant un goulot d'étranglement séquentiel. DFlash utilise une prédiction parallèle masquée par blocs, permettant au modèle brouillon de remplir un bloc entier de positions en un seul passage. Sur des tâches de code, six à sept tokens sur huit sont acceptés à chaque round de vérification, atteignant parfois 7,14 en moyenne. TileRT complète le tableau côté système : à ces vitesses, chaque opérateur ne dure que quelques microsecondes, et les coûts de lancement d'opérateurs traditionnels fracturent le flux d'exécution. TileRT maintient un noyau persistant sur le GPU avec spécialisation par warp, éliminant ces interruptions. Xiaomi positionne cette combinaison comme une réponse directe à la montée en puissance de la vitesse d'inférence comme métrique concurrentielle, face aux investissements croissants de Meta, Google et OpenAI dans leurs propres accélérateurs propriétaires.

UEImpact indirect : les techniques publiées (quantification MXFP4, décodage spéculatif DFlash, moteur TileRT) pourraient réduire les coûts d'inférence pour les entreprises et labos européens déployant de grands modèles, mais aucune adoption ou régulation directement concernée.

InfrastructureOpinion
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
4Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic