Aller au contenu principal
Fish Audio lance Fish Audio S2 : une nouvelle génération de synthèse vocale expressive (TTS) aux émotions incroyablement contrôlables
OutilsMarkTechPost8sem

Fish Audio lance Fish Audio S2 : une nouvelle génération de synthèse vocale expressive (TTS) aux émotions incroyablement contrôlables

Résumé IASource uniqueImpact UE
Source originale ↗·

Fish Audio lance S2-Pro, un modèle de synthèse vocale de nouvelle génération reposant sur une architecture Dual-AR (4B paramètres pour la sémantique, 400M pour l'acoustique) et la quantification vectorielle résiduelle (RVQ), permettant une génération audio 44,1 kHz avec une latence inférieure à 150 ms. Le modèle offre un clonage vocal zero-shot à partir d'un extrait de référence de 10 à 30 secondes, sans fine-tuning. Une fonctionnalité notable est le contrôle émotionnel granulaire via des balises en langage naturel insérées directement dans le texte (ex. [whisper], [laugh]), permettant des transitions d'émotion dynamiques au sein d'une même génération.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

xAI lance des API autonomes de reconnaissance et synthèse vocale Grok pour les développeurs entreprise

xAI, la société d'intelligence artificielle d'Elon Musk, a lancé deux nouvelles API audio autonomes : une API de transcription vocale (Speech-to-Text) et une API de synthèse vocale (Text-to-Speech), toutes deux basées sur la même infrastructure qui alimente Grok Voice sur les applications mobiles, les véhicules Tesla et le support client Starlink. L'API STT est disponible dès maintenant, avec transcription en 25 langues, modes batch et temps réel, à des tarifs de 0,10 dollar par heure en batch et 0,20 dollar en streaming. L'API TTS, elle, est facturée 4,20 dollars par million de caractères, prend en charge 20 langues et propose cinq voix distinctes. Les deux API entrent directement en concurrence avec les acteurs établis du marché : ElevenLabs, Deepgram et AssemblyAI. Ces nouveaux outils s'adressent en priorité aux développeurs qui construisent des agents vocaux, des systèmes de transcription de réunions, des centres d'appels automatisés ou des fonctionnalités d'accessibilité. Sur le plan technique, l'API STT intègre des horodatages au niveau du mot, la diarisation des locuteurs (identification de qui parle à quel moment), le support de 12 formats audio et une normalisation intelligente du texte qui convertit automatiquement les formes orales en formats lisibles. L'API TTS se distingue par sa capacité à injecter des balises expressives dans le texte, comme [laugh], [sigh] ou des balises enveloppantes comme whisper et emphasis, permettant une synthèse vocale naturelle et nuancée, loin de la monotonie des systèmes classiques. Sur les benchmarks internes, xAI revendique un taux d'erreur de 5,0 % pour la reconnaissance d'entités sur appels téléphoniques, contre 12,0 % pour ElevenLabs, 13,5 % pour Deepgram et 21,3 % pour AssemblyAI. Ce lancement s'inscrit dans une stratégie d'expansion agressive de xAI, qui cherche à monétiser ses capacités audio au-delà de l'écosystème Grok et à conquérir un marché entreprise où la qualité de transcription et la latence sont des critères décisifs. Le marché des API vocales connaît une forte croissance portée par l'essor des agents IA conversationnels, des outils de réunion automatisés et des interfaces vocales embarquées. Si les performances annoncées se confirment en production, xAI dispose d'un avantage compétitif tangible face à des concurrents bien établis, mais les développeurs attendront des validations indépendantes avant de migrer leurs infrastructures critiques vers une plateforme encore jeune.

💬 Les chiffres du benchmark STT sont impressionnants, 5% d'erreur contre 21% pour AssemblyAI, bon, sur le papier. Le pricing est agressif et les features (diarisation, balises expressives) montrent qu'ils ont bossé le sujet sérieusement, pas juste un wrapper OpenAI Whisper habillé. Reste à voir si ça tient en prod sur des accents français ou du bruit ambiant réel, parce que les benchmarks internes de xAI, j'attends la validation communautaire avant de migrer quoi que ce soit.

OutilsOutil
1 source
Mistral AI lance un modèle de synthèse vocale
2AI Business 

Mistral AI lance un modèle de synthèse vocale

Mistral AI, la startup française spécialisée dans les modèles de langage, a lancé son premier modèle de synthèse vocale (text-to-speech), baptisé Mistral TTS. Compatible avec neuf langues — dont le français, l'anglais, l'espagnol, l'allemand, l'italien, le portugais, le néerlandais, le polonais et le russe —, le modèle est disponible via l'API de la plateforme La Plateforme et vise en priorité les applications d'agents vocaux en production. Ce lancement représente une extension stratégique de l'offre Mistral au-delà du texte pur. Les agents vocaux — utilisés dans le service client, les assistants embarqués ou la téléphonie automatisée — nécessitent des modèles TTS rapides, naturels et multilingues. En intégrant cette brique directement dans son écosystème, Mistral permet aux développeurs de construire des workflows vocaux complets sans dépendre de fournisseurs tiers comme ElevenLabs ou la voix de Google. Fondée en 2023 par d'anciens chercheurs de Google DeepMind et Meta, Mistral s'est imposée comme le principal challenger européen face aux géants américains de l'IA. Après avoir consolidé ses modèles de texte et de code, l'entreprise comble progressivement les manques de sa plateforme pour proposer une suite complète. Le TTS multilingue arrive dans un marché en pleine effervescence, où la voix devient un vecteur central d'interaction entre humains et systèmes d'IA.

UEMistral TTS offre aux entreprises européennes une alternative souveraine aux solutions vocales américaines pour déployer des agents vocaux multilingues sans dépendre de fournisseurs tiers.

OutilsOpinion
1 source
Google lance Lyria 3 Pro, son nouveau modèle de génération musicale
3TechCrunch AI 

Google lance Lyria 3 Pro, son nouveau modèle de génération musicale

Google lance Lyria 3 Pro, une nouvelle version améliorée de son modèle de génération musicale par intelligence artificielle. Ce modèle produit des morceaux plus longs et offre davantage d'options de personnalisation que son prédécesseur. Google prévoit de l'intégrer à Gemini, ses produits entreprise et d'autres services. Cette avancée marque une accélération concrète de l'IA générative dans le domaine musical, un secteur jusqu'ici dominé par des acteurs spécialisés comme Suno ou Udio. En s'appuyant sur son écosystème Gemini, Google dispose d'un levier de distribution massif pour imposer Lyria comme référence. La course à la génération musicale par IA s'intensifie alors que les grandes plateformes cherchent à intégrer ces capacités directement dans leurs outils créatifs et professionnels.

OutilsActu
1 source
Les joueurs expriment leur écœurement face aux retouches IA générative de DLSS 5
4Ars Technica AI 

Les joueurs expriment leur écœurement face aux retouches IA générative de DLSS 5

Nvidia a dévoilé DLSS 5, prévu pour l'automne, qui va bien au-delà du simple upscaling en intégrant une "IA générative" pour remodeler l'éclairage et les textures en temps réel — ce que le PDG Jensen Huang décrit comme "un bond dramatique vers le réalisme visuel". La technologie, baptisée "modèle de rendu neural en temps réel", exploite les vecteurs de couleur et de mouvement internes du jeu pour générer un rendu photoréaliste ancré à la scène 3D source. La réaction des joueurs et de l'industrie a été massivement négative, critiquant un rendu lisse et artificiel qui trahit l'esthétique voulue par les artistes.

UELes studios de jeux vidéo européens et leurs artistes devront réévaluer leurs pipelines créatifs si DLSS 5 s'impose comme standard, risquant de voir leurs intentions artistiques supplantées par un rendu généré automatiquement.

OutilsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour