Aller au contenu principal
Inworld AI lance Realtime TTS-2 : un modèle vocal en boucle fermée qui s'adapte à votre façon de parler
OutilsMarkTechPost1sem

Inworld AI lance Realtime TTS-2 : un modèle vocal en boucle fermée qui s'adapte à votre façon de parler

Résumé IASource uniqueImpact UE
Source originale ↗·

Inworld AI a lancé en mai 2026 Realtime TTS-2, un nouveau modèle de synthèse vocale disponible en préversion de recherche via son Inworld API et son Inworld Realtime API. Ce modèle représente une rupture architecturale significative par rapport aux systèmes de synthèse vocale conventionnels : là où la plupart des moteurs TTS (text-to-speech) reçoivent du texte et produisent de l'audio de manière stateless, TTS-2 fonctionne en boucle fermée. Il ingère l'audio réel des échanges précédents, pas seulement leur transcription, ce qui lui permet de percevoir le ton, le rythme et l'état émotionnel de l'interlocuteur. Le modèle propose quatre capacités principales : une direction vocale en langage naturel via des balises inline comme [speak sadly, as if something bad just happened], des marqueurs non-verbaux injectables ([laugh], [sigh], [cough]), une préservation de l'identité vocale sur plus de 100 langues y compris en cas de changement de langue en mid-phrase, et une conception de voix à partir d'une description textuelle sans audio de référence. Trois modes de stabilité sont disponibles : Expressif pour les agents conversationnels grand public, Équilibré pour la majorité des déploiements, et Stable pour les environnements professionnels ou les serveurs vocaux interactifs où la dérive de tonalité est inacceptable.

L'enjeu concret est de rendre les agents vocaux IA crédibles dans des situations à forte charge émotionnelle, comme le support client en soirée ou les interfaces de santé mentale. En entendant le vrai signal audio plutôt qu'en lisant une retranscription, le modèle saisit si un "okay, fine" est soulagé, résigné ou sarcastique, et adapte sa réponse en conséquence. Le contexte audio se propage automatiquement d'un tour à l'autre dans une session Realtime sans que les développeurs aient à gérer manuellement des champs prior_audio. TTS-2 génère aussi des disfluences naturelles, "euh", "hm", auto-corrections, pauses en milieu de phrase, calibrées selon le profil du locuteur, ce qui renforce la perception d'un interlocuteur attentif plutôt que d'un système en dysfonctionnement.

Cette annonce s'inscrit dans une compétition intense autour de la voix conversationnelle IA, un segment en pleine expansion porté par les agents d'assistance, les compagnons virtuels et l'automatisation du support client. Inworld AI, jusqu'ici principalement connue pour ses personnages IA dans les jeux vidéo, repositionne ici sa technologie vocale vers un marché enterprise plus large. La plupart des acteurs dominants du TTS, comme ElevenLabs ou les offres vocales d'OpenAI, traitent chaque génération comme un appel indépendant sans mémoire auditive des tours précédents. TTS-2 parie que la continuité émotionnelle entre les tours est le vrai différenciateur dans les cas d'usage à forte intensité humaine. La sortie en research preview suggère que des ajustements restent en cours, notamment pour les langues de longue traîne, mais l'API est déjà accessible aux développeurs pour intégration.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mistral AI lance un modèle de synthèse vocale
1AI Business 

Mistral AI lance un modèle de synthèse vocale

Mistral AI, la startup française spécialisée dans les modèles de langage, a lancé son premier modèle de synthèse vocale (text-to-speech), baptisé Mistral TTS. Compatible avec neuf langues — dont le français, l'anglais, l'espagnol, l'allemand, l'italien, le portugais, le néerlandais, le polonais et le russe —, le modèle est disponible via l'API de la plateforme La Plateforme et vise en priorité les applications d'agents vocaux en production. Ce lancement représente une extension stratégique de l'offre Mistral au-delà du texte pur. Les agents vocaux — utilisés dans le service client, les assistants embarqués ou la téléphonie automatisée — nécessitent des modèles TTS rapides, naturels et multilingues. En intégrant cette brique directement dans son écosystème, Mistral permet aux développeurs de construire des workflows vocaux complets sans dépendre de fournisseurs tiers comme ElevenLabs ou la voix de Google. Fondée en 2023 par d'anciens chercheurs de Google DeepMind et Meta, Mistral s'est imposée comme le principal challenger européen face aux géants américains de l'IA. Après avoir consolidé ses modèles de texte et de code, l'entreprise comble progressivement les manques de sa plateforme pour proposer une suite complète. Le TTS multilingue arrive dans un marché en pleine effervescence, où la voix devient un vecteur central d'interaction entre humains et systèmes d'IA.

UEMistral TTS offre aux entreprises européennes une alternative souveraine aux solutions vocales américaines pour déployer des agents vocaux multilingues sans dépendre de fournisseurs tiers.

OutilsOpinion
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
2MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale
3The Decoder 

Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale

Cohere a publié un nouveau modèle de reconnaissance vocale open source qui surpasse l'ensemble de ses concurrents sur les benchmarks de référence du secteur, y compris Whisper d'OpenAI, le standard de facto depuis plusieurs années. Le modèle est disponible librement, ce qui permet à n'importe quelle équipe de le déployer, le modifier et l'intégrer sans restrictions de licence. Cette sortie représente un défi direct à la domination d'OpenAI dans le domaine de la transcription automatique. Whisper, lancé en 2022, s'est imposé comme la solution de référence pour des milliers d'applications professionnelles et open source. Qu'un acteur comme Cohere propose désormais une alternative plus performante et librement accessible change concrètement la donne pour les développeurs, les entreprises et les chercheurs qui cherchent à traiter de l'audio à grande échelle sans dépendance à un fournisseur propriétaire. Cohere, spécialisé dans les modèles de langage à destination des entreprises, élargit ainsi son périmètre au-delà du texte vers la modalité vocale, un segment en forte croissance. Cette publication s'inscrit dans une tendance plus large où les acteurs de l'IA rivalisent d'open source stratégique pour gagner en adoption et en crédibilité face aux géants comme OpenAI et Google. La qualité des benchmarks annoncés reste à confirmer par la communauté, mais le signal envoyé à l'industrie est clair.

UELes développeurs et entreprises européens peuvent adopter une alternative open source performante à Whisper pour la transcription vocale, réduisant leur dépendance aux solutions propriétaires américaines.

OutilsActu
1 source
WhatsApp lance Incognito Chat pour parler à Meta AI sans laisser de traces
4Le Big Data 

WhatsApp lance Incognito Chat pour parler à Meta AI sans laisser de traces

WhatsApp a lancé le 13 mai 2026 une nouvelle fonctionnalité baptisée Incognito Chat, actuellement en cours de déploiement sur Android et iOS. Ce mode permet aux utilisateurs de converser avec Meta AI sans qu'aucun historique ne soit conservé. Concrètement, les messages échangés disparaissent automatiquement à la fermeture de la discussion, et Meta affirme qu'aucune trace ne reste sur ses serveurs. La fonctionnalité repose sur la technologie Private Processing de WhatsApp, qui traite les échanges dans des environnements chiffrés de bout en bout auxquels même les équipes de l'entreprise n'auraient pas accès. Les recherches web effectuées pendant ces conversations seraient également anonymisées. Mark Zuckerberg a présenté Incognito Chat comme le premier système d'IA conversationnelle sans historique de conversations, une affirmation qui vise clairement à se distinguer des concurrents. L'impact de cette fonctionnalité est direct pour les centaines de millions d'utilisateurs de WhatsApp qui hésitaient jusqu'ici à confier des informations sensibles à un assistant IA. Les données financières, médicales ou professionnelles sont parmi les plus fréquemment citées comme frein à l'adoption des chatbots. En proposant un espace d'échange temporaire et invisible, Meta cherche à lever ce blocage psychologique et à accélérer l'adoption de Meta AI dans les usages quotidiens. Pour l'industrie, c'est un signal fort : la confidentialité est en train de devenir un argument concurrentiel de premier plan dans la guerre des assistants IA, au même titre que la performance des modèles. WhatsApp annonce également d'autres fonctions privées à venir, notamment des conversations secondaires protégées capables d'utiliser le contexte d'un échange sans exposer les messages principaux. Ce lancement s'inscrit dans un contexte de méfiance croissante envers les assistants conversationnels, régulièrement accusés de conserver les échanges pour entraîner leurs modèles ou d'alimenter un ciblage publicitaire trop précis. Meta traîne depuis des années une réputation difficile sur les questions de vie privée, et WhatsApp, racheté en 2014 pour 19 milliards de dollars, reste sous scrutin constant des régulateurs européens et des associations de défense des données personnelles. En lançant Incognito Chat, l'entreprise joue sur deux tableaux : rassurer une base d'utilisateurs qui utilise déjà WhatsApp pour des échanges intimes, et positionner Meta AI comme un assistant de confiance face à des concurrents comme ChatGPT ou Gemini. La formule de Zuckerberg sur l'absence d'historique ressemble d'ailleurs moins à une description technique qu'à un message marketing destiné aux utilisateurs les plus réticents. La vraie question qui demeure est celle de la vérifiabilité : comment les utilisateurs peuvent-ils s'assurer que ces promesses de confidentialité sont effectivement tenues, sans audit indépendant public des infrastructures concernées.

UELes centaines de millions d'utilisateurs européens de WhatsApp sont directement concernés, et les régulateurs de l'UE devront vérifier si les promesses de confidentialité d'Incognito Chat sont conformes au RGPD, notamment en l'absence d'audit indépendant des infrastructures.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour