
Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public
Xiaomi, en collaboration avec le groupe système TileRT, a publié MiMo-V2.5-Pro-UltraSpeed, un mode de serving haute vitesse pour son modèle existant MiMo-V2.5-Pro. Ce modèle, basé sur une architecture Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, franchit pour la première fois la barre des 1 000 tokens par seconde sur cette classe de modèles, avec des pics mesurés à 1 200 tokens/s. Ce qui rend la performance remarquable, c'est le matériel utilisé : non pas des puces custom ou des accélérateurs spécialisés, mais un nœud standard de 8 GPU grand public. Le résultat découle de trois techniques coordonnées que Xiaomi qualifie de "codesign modèle-système extrême" : la quantification FP4 (format MXFP4 appliqué sélectivement aux experts MoE, le reste restant en FP8), le décodage spéculatif DFlash, et le moteur d'exécution TileRT. La qualité des benchmarks reste comparable au modèle original grâce à un entraînement avec conscience de la quantification (QAT).
Ces vitesses changent concrètement ce qu'il est possible de faire avec un grand modèle en production. À 1 000 tokens/s, des tâches qui supposaient d'attendre plusieurs secondes entre chaque étape deviennent quasi-instantanées : un agent de code peut enchaîner les cycles génération-exécution-correction sans temps mort perceptible, des stratégies de raisonnement Best-of-N peuvent faire tourner des dizaines de branches en parallèle dans le même temps horloge, et des usages temps réel comme la détection de fraude ou le dialogue interactif deviennent viables sans infrastructure dédiée. Les démos publiées montrent la génération d'un jeu Snake en une dizaine de secondes, illustrant la fluidité atteinte pour des tâches de prototypage rapide.
DFlash, la pièce centrale du gain de vitesse, résout un problème structurel du décodage spéculatif classique : le modèle brouillon génère les tokens un par un, créant un goulot d'étranglement séquentiel. DFlash utilise une prédiction parallèle masquée par blocs, permettant au modèle brouillon de remplir un bloc entier de positions en un seul passage. Sur des tâches de code, six à sept tokens sur huit sont acceptés à chaque round de vérification, atteignant parfois 7,14 en moyenne. TileRT complète le tableau côté système : à ces vitesses, chaque opérateur ne dure que quelques microsecondes, et les coûts de lancement d'opérateurs traditionnels fracturent le flux d'exécution. TileRT maintient un noyau persistant sur le GPU avec spécialisation par warp, éliminant ces interruptions. Xiaomi positionne cette combinaison comme une réponse directe à la montée en puissance de la vitesse d'inférence comme métrique concurrentielle, face aux investissements croissants de Meta, Google et OpenAI dans leurs propres accélérateurs propriétaires.
Impact indirect : les techniques publiées (quantification MXFP4, décodage spéculatif DFlash, moteur TileRT) pourraient réduire les coûts d'inférence pour les entreprises et labos européens déployant de grands modèles, mais aucune adoption ou régulation directement concernée.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




