Aller au contenu principal
Fish Audio lance Fish Audio S2 : une nouvelle génération de synthèse vocale expressive (TTS) aux émotions incroyablement contrôlables
OutilsMarkTechPost14sem· 1 min de lecture

Fish Audio lance Fish Audio S2 : une nouvelle génération de synthèse vocale expressive (TTS) aux émotions incroyablement contrôlables

Source originale ↗·

Fish Audio lance S2-Pro, un modèle de synthèse vocale de nouvelle génération reposant sur une architecture Dual-AR (4B paramètres pour la sémantique, 400M pour l'acoustique) et la quantification vectorielle résiduelle (RVQ), permettant une génération audio 44,1 kHz avec une latence inférieure à 150 ms. Le modèle offre un clonage vocal zero-shot à partir d'un extrait de référence de 10 à 30 secondes, sans fine-tuning. Une fonctionnalité notable est le contrôle émotionnel granulaire via des balises en langage naturel insérées directement dans le texte (ex. [whisper], [laugh]), permettant des transitions d'émotion dynamiques au sein d'une même génération.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

AWS prépare une nouvelle génération d’agents IA d’entreprise
1Le Big Data 

AWS prépare une nouvelle génération d’agents IA d’entreprise

Amazon Web Services a dévoilé une série d'annonces autour de sa plateforme Bedrock et de plusieurs nouveaux services destinés à accélérer l'intégration des agents IA dans les environnements d'entreprise. Les évolutions touchent quatre domaines principaux : l'accès à la connaissance, l'automatisation des processus métier, la sécurité applicative et le développement logiciel. Bedrock AgentCore s'enrichit notamment de connecteurs vers SharePoint, Confluence, Google Drive et Amazon S3, mais aussi d'une capacité de navigation web directement intégrée au périmètre sécurisé du client. Un mécanisme d'accès aux contenus sous licence est également prévu, permettant aux fournisseurs de données de monétiser leur usage par les agents. Sur le terrain de la gouvernance, les équipes peuvent désormais analyser les erreurs récurrentes, tester différentes configurations et renforcer la protection contre les injections de prompt via Bedrock Guardrails. L'assistant métier Amazon Quick reçoit des capacités de gestion autonome de tâches, avec une vue unifiée regroupant échanges, rendez-vous et actions en attente, et s'ouvre à de nouveaux partenaires comme Adobe, Figma, Shopify, Snowflake et WhatsApp. Ces annonces marquent un changement de paradigme dans la façon dont AWS positionne l'IA en entreprise : il ne s'agit plus d'outils de question-réponse, mais d'agents capables d'agir de façon autonome sur des workflows réels. Pour les équipes de développement, AWS Continuum automatise l'identification et la correction des vulnérabilités logicielles, tandis qu'AWS Transform surveille en continu les dépôts de code pour détecter les composants vieillissants et proposer des pull requests correctives. AWS DevOps Agent élargit quant à lui son périmètre à la validation pré-production et à la génération automatique de scénarios de test. L'environnement de développement piloté par agents Kiro devient accessible sur iPhone. Ce virage vers l'automatisation concrète représente un enjeu majeur pour les directions techniques et les DSI, qui doivent désormais évaluer comment déléguer des pans entiers de leur chaîne de valeur à des systèmes autonomes. Ces évolutions s'inscrivent dans une compétition intense entre les grands fournisseurs de cloud pour capter les budgets IA des entreprises. AWS répond ainsi aux offres de Microsoft Copilot et de Google Vertex AI, qui avancent sur des territoires similaires. Le nouveau service AWS Context, qui construit automatiquement une représentation des liens entre données d'entreprise pour les rendre exploitables par les agents, illustre la volonté d'AWS de résoudre la fragmentation de l'information dans les grandes organisations, un problème structurel que ni les outils de recherche classiques ni les premiers chatbots d'entreprise n'ont su régler. La capacité à monétiser les données premium via les agents ouvre par ailleurs un nouveau marché pour les éditeurs de contenu, dont les modalités de valorisation restent encore à définir dans un cadre réglementaire et contractuel qui n'en est qu'à ses débuts.

UELes DSI français et européens opérant sur AWS peuvent dès maintenant évaluer le déploiement d'agents autonomes sur leurs workflows internes, dans un cadre de sécurité (Bedrock Guardrails, protection anti-injection) potentiellement aligné avec les exigences de l'AI Act.

💬 AWS Context est probablement l'annonce la plus sous-estimée du lot : construire automatiquement la carte des liens entre données d'entreprise, c'est ce que ni SharePoint ni Elastic n'ont réussi à faire depuis vingt ans. Le vrai enjeu ici, c'est pas les agents, c'est qui détient le graphe de connaissance de l'organisation. Azure l'avait compris avant tout le monde avec le Microsoft Graph, AWS vient de rattraper son retard, bon, presque.

OutilsOutil
1 source
2MarkTechPost 

xAI lance des API autonomes de reconnaissance et synthèse vocale Grok pour les développeurs entreprise

xAI, la société d'intelligence artificielle d'Elon Musk, a lancé deux nouvelles API audio autonomes : une API de transcription vocale (Speech-to-Text) et une API de synthèse vocale (Text-to-Speech), toutes deux basées sur la même infrastructure qui alimente Grok Voice sur les applications mobiles, les véhicules Tesla et le support client Starlink. L'API STT est disponible dès maintenant, avec transcription en 25 langues, modes batch et temps réel, à des tarifs de 0,10 dollar par heure en batch et 0,20 dollar en streaming. L'API TTS, elle, est facturée 4,20 dollars par million de caractères, prend en charge 20 langues et propose cinq voix distinctes. Les deux API entrent directement en concurrence avec les acteurs établis du marché : ElevenLabs, Deepgram et AssemblyAI. Ces nouveaux outils s'adressent en priorité aux développeurs qui construisent des agents vocaux, des systèmes de transcription de réunions, des centres d'appels automatisés ou des fonctionnalités d'accessibilité. Sur le plan technique, l'API STT intègre des horodatages au niveau du mot, la diarisation des locuteurs (identification de qui parle à quel moment), le support de 12 formats audio et une normalisation intelligente du texte qui convertit automatiquement les formes orales en formats lisibles. L'API TTS se distingue par sa capacité à injecter des balises expressives dans le texte, comme [laugh], [sigh] ou des balises enveloppantes comme whisper et emphasis, permettant une synthèse vocale naturelle et nuancée, loin de la monotonie des systèmes classiques. Sur les benchmarks internes, xAI revendique un taux d'erreur de 5,0 % pour la reconnaissance d'entités sur appels téléphoniques, contre 12,0 % pour ElevenLabs, 13,5 % pour Deepgram et 21,3 % pour AssemblyAI. Ce lancement s'inscrit dans une stratégie d'expansion agressive de xAI, qui cherche à monétiser ses capacités audio au-delà de l'écosystème Grok et à conquérir un marché entreprise où la qualité de transcription et la latence sont des critères décisifs. Le marché des API vocales connaît une forte croissance portée par l'essor des agents IA conversationnels, des outils de réunion automatisés et des interfaces vocales embarquées. Si les performances annoncées se confirment en production, xAI dispose d'un avantage compétitif tangible face à des concurrents bien établis, mais les développeurs attendront des validations indépendantes avant de migrer leurs infrastructures critiques vers une plateforme encore jeune.

💬 Les chiffres du benchmark STT sont impressionnants, 5% d'erreur contre 21% pour AssemblyAI, bon, sur le papier. Le pricing est agressif et les features (diarisation, balises expressives) montrent qu'ils ont bossé le sujet sérieusement, pas juste un wrapper OpenAI Whisper habillé. Reste à voir si ça tient en prod sur des accents français ou du bruit ambiant réel, parce que les benchmarks internes de xAI, j'attends la validation communautaire avant de migrer quoi que ce soit.

OutilsOutil
1 source
Mistral AI lance un modèle de synthèse vocale
3AI Business 

Mistral AI lance un modèle de synthèse vocale

Mistral AI, la startup française spécialisée dans les modèles de langage, a lancé son premier modèle de synthèse vocale (text-to-speech), baptisé Mistral TTS. Compatible avec neuf langues — dont le français, l'anglais, l'espagnol, l'allemand, l'italien, le portugais, le néerlandais, le polonais et le russe —, le modèle est disponible via l'API de la plateforme La Plateforme et vise en priorité les applications d'agents vocaux en production. Ce lancement représente une extension stratégique de l'offre Mistral au-delà du texte pur. Les agents vocaux — utilisés dans le service client, les assistants embarqués ou la téléphonie automatisée — nécessitent des modèles TTS rapides, naturels et multilingues. En intégrant cette brique directement dans son écosystème, Mistral permet aux développeurs de construire des workflows vocaux complets sans dépendre de fournisseurs tiers comme ElevenLabs ou la voix de Google. Fondée en 2023 par d'anciens chercheurs de Google DeepMind et Meta, Mistral s'est imposée comme le principal challenger européen face aux géants américains de l'IA. Après avoir consolidé ses modèles de texte et de code, l'entreprise comble progressivement les manques de sa plateforme pour proposer une suite complète. Le TTS multilingue arrive dans un marché en pleine effervescence, où la voix devient un vecteur central d'interaction entre humains et systèmes d'IA.

UEMistral TTS offre aux entreprises européennes une alternative souveraine aux solutions vocales américaines pour déployer des agents vocaux multilingues sans dépendre de fournisseurs tiers.

OutilsOpinion
1 source
Supertone lance Supertonic v3 : modèle de synthèse vocale embarquée en 31 langues, avec moins d'erreurs de lecture et des balises d'expression
4MarkTechPost 

Supertone lance Supertonic v3 : modèle de synthèse vocale embarquée en 31 langues, avec moins d'erreurs de lecture et des balises d'expression

Supertone a publié Supertonic 3, la troisième génération de son moteur de synthèse vocale embarqué, basé sur le format ONNX. Cette nouvelle version prend en charge 31 langues, contre seulement 5 dans la version précédente (anglais, coréen, espagnol, portugais et français). Parmi les ajouts figurent l'allemand, l'arabe, le japonais, le russe, le turc, le néerlandais ou encore le vietnamien. Le modèle pèse environ 99 millions de paramètres et occupe 404 Mo sur disque, une empreinte nettement inférieure aux systèmes TTS open-source comparables qui atteignent généralement 700 millions à 2 milliards de paramètres. La v3 corrige aussi les erreurs de lecture que l'on observait dans la v2 (répétitions et omissions de mots), et introduit des balises expressives directement insérables dans le texte : `, , ` permettent de contrôler la prosodie sans modèle auxiliaire. Supertone a également lancé en parallèle un outil baptisé Voice Builder, qui permet aux développeurs de créer des modèles vocaux personnalisés à partir de leurs propres enregistrements. La force de Supertonic 3 réside dans sa capacité à fonctionner entièrement hors ligne, sans GPU, sur du matériel très contraint. Le modèle atteint un RTF (Real-Time Factor) de 0,3 sur un Onyx Boox Go 6, une liseuse e-ink sans connexion réseau, ce qui signifie qu'il génère de la parole trois fois plus vite que la durée réelle du son produit. Pour les développeurs d'interfaces vocales, d'outils d'accessibilité ou d'applications embarquées, cela représente un changement concret : plus besoin d'infrastructure cloud, de latence réseau ou de coût de requête à l'API. Le modèle tient dans un appareil mobile bas de gamme et produit une qualité de lecture compétitive face à des modèles bien plus lourds mesurés sur GPU A100, selon les métriques standard WER (Word Error Rate) et CER (Character Error Rate). Supertone, studio sud-coréen spécialisé dans l'audio IA, s'inscrit dans une tendance plus large vers la synthèse vocale locale et souveraine, à l'opposé des services cloud comme ceux d'ElevenLabs ou d'OpenAI. L'architecture repose sur un autoencoder audio, un module de génération par flow matching en seulement 2 étapes d'inférence (plus rapide que la diffusion classique), et une technique d'entraînement Self-Purifying Flow Matching qui rend le modèle résistant aux données bruitées. La v3 intègre aussi LARoPE (Length-Aware Rotary Position Embedding) pour améliorer l'alignement texte-parole. L'écosystème s'est étendu à Flutter (avec support macOS), .NET 9, Go, et au web via onnxruntime-web pour une exécution entièrement côté client. La compatibilité avec les assets ONNX publics de la v2 facilite la migration. La prochaine étape logique serait l'intégration dans des agents vocaux autonomes ou des lecteurs d'écran multilingues embarqués.

UEL'extension à 31 langues incluant plusieurs langues européennes (allemand, néerlandais, russe, arabe) et la capacité de fonctionnement entièrement hors-ligne représentent une opportunité directe pour les développeurs européens d'applications d'accessibilité et d'outils embarqués soumis aux exigences de souveraineté des données.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic