
Miso Labs publie MisoTTS : un modèle de synthèse vocale expressif de 8 milliards de paramètres en open weights
Miso Labs a publié le 3 juin 2026 MisoTTS, un modèle de synthèse vocale open-weights de 8 milliards de paramètres capable de générer une parole expressive à partir de texte et de contexte audio. Construit sur une architecture de type Llama 3.2, le modèle s'inspire du système CSM de Sesame et repose sur une technique de quantification vectorielle résiduelle (RVQ) pour représenter les sons. Contrairement aux transformeurs classiques qui travaillent avec un vocabulaire discret fixe, MisoTTS émet pour chaque token audio un vecteur de 32 indices issus de codebooks de 2048 entrées chacun, ce qui lui permet d'atteindre théoriquement environ 10^105 tokens adressables sans augmenter le nombre de paramètres. L'architecture se divise en deux composants : un backbone de 7,7 milliards de paramètres responsable de la prédiction temporelle, et un décodeur de 300 millions de paramètres qui raffine les indices de codebook restants. Miso Labs revendique une latence de 110 millisecondes, contre 300 ms pour Sesame et 700 ms pour ElevenLabs. Le modèle est publié sous une licence MIT modifiée.
Ce lancement est notable pour deux raisons techniques distinctes. La première est la résolution du problème de vocabulaire : la parole humaine varie en hauteur, rythme, accentuation, émotion et accent, ce qui la rend difficile à capturer avec un vocabulaire de tokens classique sans gonfler massivement la taille du modèle. La RVQ contourne cette limite en empilant des raffinements successifs plutôt qu'en élargissant un seul vocabulaire plat. La seconde avancée concerne le conditionnement : la plupart des systèmes TTS existants ne prennent en entrée que du texte. MisoTTS conditionne aussi le modèle sur l'audio de l'interlocuteur, lui permettant de répondre au ton de la conversation plutôt que de produire une voix uniforme. Miso Labs soutient que c'est précisément cette absence de prise en compte du contexte émotionnel qui cause l'effet de vallée de l'étrange dans les TTS actuels.
Le modèle s'inscrit dans une dynamique d'ouverture accélérée dans le secteur des modèles audio. Après Sesame, dont l'architecture CSM a directement inspiré MisoTTS, plusieurs laboratoires cherchent à rendre la synthèse vocale expressive accessible localement, en dehors des API propriétaires. Le déploiement local est d'ailleurs l'un des arguments commerciaux de Miso Labs, qui met en avant la confidentialité des données audio. Des limites demeurent : le modèle fonctionne uniquement en mode half-duplex, sans gestion du tour de parole, nécessite un GPU CUDA performant, et l'accès API annoncé n'est pas encore disponible. Les affirmations sur la latence et la qualité n'ont pas encore été vérifiées par des tiers indépendants, ce qui laisse ouvertes les questions sur les performances réelles en production.
Les développeurs et entreprises européennes peuvent déployer localement ce modèle open-weights pour la synthèse vocale expressive, réduisant leur dépendance aux API propriétaires et améliorant la confidentialité des données audio sensibles.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



