Aller au contenu principal
Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable
CréationMarkTechPost9sem· 2 min de lecture

Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable

Résumé IASources croisées · 3Impact UE
Source originale ↗·

Google a lancé Gemini 3.1 Flash TTS, un nouveau modèle de synthèse vocale disponible en préversion via l'API Gemini, Google AI Studio, Vertex AI pour les entreprises et Google Vids pour les utilisateurs Workspace. Le modèle affiche un score Elo de 1 211 sur le classement Artificial Analysis TTS Leaderboard, ce qui en fait le modèle vocal le plus naturel et expressif jamais proposé par Google. Sa particularité technique réside dans le recours à des balises audio et au prompting en langage naturel pour piloter le style, le ton, le rythme, l'accentuation et les nuances dialectales dans plus de 70 langues. Le modèle gère également nativement le dialogue multi-locuteurs, sans nécessiter d'appels API séparés pour chaque voix, ce qui garantit une fluidité conversationnelle bien supérieure aux pipelines TTS traditionnels. Enfin, chaque audio généré intègre automatiquement un filigrane invisible SynthID, conçu pour être imperceptible à l'écoute tout en permettant une détection fiable du contenu généré par IA.

Cette version marque un tournant dans la façon dont les développeurs construisent des expériences vocales. En permettant de diriger le modèle comme un réalisateur audio plutôt que de subir une conversion figée, Google ouvre la voie à des cas d'usage bien plus sophistiqués : podcasts générés automatiquement avec plusieurs intervenants distincts, scripts dramatiques, interfaces d'assistants collaboratifs ou encore doublages multilingues. Pour les entreprises clientes de Vertex AI, la combinaison de la qualité benchmark, du contrôle fin et du watermarking intégré répond directement aux exigences de conformité et de traçabilité qui freinent souvent l'adoption de l'audio généré par IA dans des contextes professionnels sensibles.

Ce lancement s'inscrit dans une course intense entre les grandes plateformes technologiques pour dominer la synthèse vocale expressive. OpenAI avec ses modèles TTS, ElevenLabs et d'autres acteurs spécialisés ont considérablement élevé le niveau d'attente des développeurs ces deux dernières années. Google répond en misant sur son infrastructure existante, l'intégration native dans l'écosystème Workspace et la profondeur multilingue, des atouts structurels que les startups peinent à répliquer à cette échelle. L'intégration de SynthID dans un modèle grand public est également un signal politique fort : alors que la régulation de l'IA générative s'intensifie en Europe et aux États-Unis, Google anticipe les futures obligations de transparence sur les contenus synthétiques. La suite logique sera d'observer si ce modèle s'impose comme référence dans les benchmarks indépendants et comment les concurrents répondront dans les prochains mois.

Impact France/UE

L'intégration native du filigrane SynthID anticipe les obligations de transparence sur les contenus synthétiques imposées par l'AI Act européen, facilitant la conformité pour les entreprises utilisant Vertex AI.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio
1Le Big Data 

Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio

Google a lancé le 15 avril 2026 Gemini 3.1 Flash TTS, son nouveau modèle de synthèse vocale conçu pour donner aux créateurs un contrôle fin sur le rendu émotionnel des voix générées. La principale nouveauté réside dans l'introduction des balises audio, des commandes en langage naturel intégrées directement dans le texte pour piloter le rythme, l'intonation et le style vocal phrase par phrase. Concrètement, un développeur peut indiquer dans sa requête qu'un passage doit être prononcé avec "excitation" ou de manière "explicative", et le modèle adapte sa synthèse en conséquence. Le modèle prend en charge plus de 70 langues, dont 24 bénéficient d'une qualité dite premium, parmi lesquelles l'hindi, le japonais et l'allemand. Il est déjà intégré dans Google Vids, la Gemini API et Google AI Studio, et inclut le watermarking SynthID sur tous les outputs. Cette capacité à sculpter la voix par instructions textuelles représente un changement de paradigme pour les producteurs de contenu audio et les équipes de développement. Jusqu'ici, les modèles TTS généraient une voix uniforme, difficile à différencier selon le contexte ou le ton voulu. Avec Gemini 3.1 Flash TTS, les entreprises qui produisent des podcasts automatisés, des assistants vocaux, des vidéos pédagogiques ou des expériences de narration interactive peuvent adapter le rendu vocal sans post-production manuelle. La couverture multilingue avec maintien de la cohérence émotionnelle ouvre aussi la voie à des déploiements localisés à grande échelle, un enjeu crucial pour les acteurs globaux qui ne peuvent pas se permettre de perdre en expressivité lors du passage d'une langue à l'autre. Cette annonce s'inscrit dans une course intense entre les grands acteurs de l'IA générative pour dominer le segment de la voix. OpenAI a lancé ses propres capacités TTS via l'API et ses modèles de voix en temps réel, ElevenLabs a consolidé sa position sur le marché des créateurs, et Microsoft intègre des fonctions similaires dans Azure Cognitive Services. Google, avec DeepMind en soutien, mise sur l'intégration native dans son écosystème existant, Google Vids, AI Studio, pour accélérer l'adoption sans friction. Le fait que Gemini 3.1 Flash TTS soit directement accessible via la Gemini API suggère une stratégie orientée développeurs d'abord, avant un éventuel déploiement grand public. Les prochaines étapes probables incluent une extension des langues premium, un affinement des balises disponibles et une intégration dans NotebookLM ou d'autres outils de productivité Google déjà très utilisés.

UELes développeurs et producteurs de contenu européens peuvent intégrer dès maintenant des capacités TTS émotionnelles multilingues via la Gemini API, ouvrant la voie à des déploiements localisés à grande échelle sans post-production vocale manuelle.

CréationOpinion
1 source
Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants
2Le Big Data 

Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants

Google a présenté Gemini Omni le 19 mai 2026 lors de sa conférence annuelle Google I/O. Ce nouveau modèle d'intelligence artificielle permet de générer et modifier des vidéos à partir de simples instructions écrites en langage naturel. L'utilisateur peut demander un changement d'angle de caméra, ajuster l'éclairage d'une scène ou transformer entièrement un décor sans passer par un logiciel de montage traditionnel. Google décrit Gemini Omni comme un modèle capable de créer « n'importe quoi à partir de n'importe quelle source ». Le déploiement de la version Flash a débuté le jour même de l'annonce, d'abord pour les abonnés Google AI Plus, Pro et Ultra via l'application Gemini et Google Flow. Un accès gratuit dans YouTube Shorts et l'application YouTube Create doit suivre dans la semaine, et une ouverture via API pour les développeurs et entreprises est prévue dans les prochaines semaines. Ce qui distingue Gemini Omni des générateurs vidéo existants, c'est l'accent mis sur la cohérence et le réalisme physique, deux points notoirement difficiles pour les IA actuelles. Le modèle mémorise chaque instruction précédente pour éviter qu'un personnage change de visage entre deux plans ou qu'un décor se transforme de manière incohérente. Google affirme également que le système comprend mieux la physique des objets et les mouvements dans une scène, ce qui devrait produire des vidéos plus proches d'une production audiovisuelle classique que des artefacts expérimentaux. Pour les créateurs de contenu, les équipes marketing et les professionnels de la communication, cela représente un gain de temps considérable : là où il fallait maîtriser plusieurs logiciels, une conversation suffit désormais pour itérer sur une production vidéo. Google s'inscrit dans une course à la génération vidéo par IA qui s'est intensifiée depuis le lancement de Sora par OpenAI fin 2023, suivi de Runway, Kling et d'autres outils spécialisés. En intégrant Gemini Omni directement dans ses plateformes grand public, YouTube en tête, avec ses plus de 2,5 milliards d'utilisateurs actifs, Google parie sur la distribution comme avantage concurrentiel plutôt que sur la seule performance technique. L'intégration dans Google Flow, outil de production assistée par IA lancé plus tôt cette année, suggère une stratégie plus large visant à faire de Gemini le socle créatif de l'ensemble de l'écosystème Google. La prochaine étape sera de voir si les performances en conditions réelles sont à la hauteur des démonstrations, et si l'accès API permettra à des services tiers de construire de nouveaux usages autour du modèle.

UELes développeurs et entreprises européens pourront accéder via API à un générateur vidéo IA intégré nativement à YouTube et Google Flow, avec un déploiement grand public via YouTube Shorts prévu dans la semaine.

💬 La cohérence des personnages d'un plan à l'autre, c'était le talon d'Achille de tous ces outils. Gemini Omni semble avoir sérieusement bossé là-dessus, et si ça tient en conditions réelles, ça débloque des usages pro qui étaient encore impossibles il y a six mois. La vraie arme de Google, c'est pas la technique, c'est YouTube.

CréationActu
1 source
Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini
3MarkTechPost 

Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini

Google a lancé Veo 3.1 Lite, un nouveau palier de son portefeuille de génération vidéo par IA, désormais disponible via l'API Gemini et Google AI Studio pour les utilisateurs en abonnement payant. Ce modèle se distingue par son positionnement tarifaire agressif : il offre la même vitesse de génération que le modèle Veo 3.1 Fast existant, mais à environ moitié moins cher. Concrètement, la génération en 720p est facturée 0,05 dollar par seconde, et 0,08 dollar par seconde en 1080p — des tarifs qui contrastent avec les plusieurs dollars par minute couramment pratiqués sur le marché de la vidéo IA haute qualité. Le modèle prend en charge des clips de 4, 6 ou 8 secondes, aux formats 16:9 et 9:16, avec une résolution maximale de 1080p (contrairement au Veo 3.1 flagship qui monte jusqu'au 4K). Il reconnaît également des directives cinématographiques précises dans les prompts, comme les instructions de panoramique, d'inclinaison ou d'éclairage. Pour les développeurs qui construisent des applications à fort volume — génération dynamique de publicités, automatisation de contenus pour les réseaux sociaux, prototypage itératif — le coût a longtemps constitué le principal frein à l'adoption industrielle de la vidéo générative. En divisant approximativement la facture par deux sans sacrifier la latence, Google ouvre la voie à des cas d'usage jusqu'ici économiquement inviables. L'intégration passe par l'API Gemini en REST ou gRPC, compatible avec les stacks Python et Node.js existants, ce qui réduit la friction d'adoption pour les équipes déjà dans l'écosystème Google. Chaque vidéo générée intègre également SynthID, le filigrane numérique invisible développé par Google DeepMind : imperceptible à l'œil nu, il reste détectable par des logiciels spécialisés, ce qui répond aux exigences croissantes de traçabilité du contenu synthétique. Sur le plan technique, Veo 3.1 Lite repose sur une architecture Diffusion Transformer (DiT), qui supplante les approches U-Net traditionnelles en traitant les frames vidéo non pas comme des images 2D statiques, mais comme des séquences de tokens dans un espace latent compressé. L'auto-attention appliquée à ces patches spatio-temporels améliore la cohérence temporelle — objets, lumières et textures restent stables tout au long du clip, un problème récurrent des modèles antérieurs. En opérant dans l'espace latent plutôt que dans l'espace pixel, le modèle contient l'empreinte mémoire et évite l'explosion du temps de calcul lors du passage en haute définition. Ce lancement s'inscrit dans une course à la démocratisation de la vidéo IA où Google, face à Sora d'OpenAI et Runway, cherche à consolider sa position en ciblant explicitement les développeurs plutôt que les créatifs, en faisant de la scalabilité économique son principal argument différenciateur.

UELes développeurs européens peuvent intégrer la génération vidéo IA à tarif réduit via l'API Gemini, sans impact réglementaire spécifique à l'UE.

CréationOpinion
1 source
Midjourney V8 Alpha : un nouveau souffle pour la création visuelle IA
4Le Big Data 

Midjourney V8 Alpha : un nouveau souffle pour la création visuelle IA

Midjourney a lancé le 27 mars 2026 la version V8 Alpha de son générateur d'images, marquant une rupture technique notable avec la V7. La nouveauté la plus immédiate est la vitesse : le modèle génère des images jusqu'à cinq fois plus rapidement que son prédécesseur. L'accès ne passe plus par Discord mais par un portail web dédié, alpha.midjourney.com, réservé aux abonnés actifs de la plateforme. La résolution native passe à 2K, sans étape d'upscaling artificiel, chaque pixel étant calculé dès la phase initiale de génération. Le modèle embarque également un algorithme de compréhension du langage revu, censé mieux respecter les instructions de cadrage complexes et réduire les erreurs anatomiques récurrentes sur les visages. Un nouveau mode de travail, le Grid Mode, permet de visualiser et modifier des variantes en temps réel directement depuis l'interface web. Ce virage technique positionne Midjourney comme un outil de production sérieux, et non plus comme un terrain d'expérimentation communautaire adossé à une messagerie. Pour les studios de design, les agences créatives et les illustrateurs professionnels, la combinaison résolution 2K natif et latence réduite change concrètement le rythme de travail : là où une itération prenait plusieurs dizaines de secondes, elle se mesure désormais en quelques secondes. Le abandon du canal Discord, longtemps critiqué pour son ergonomie chaotique, simplifie la gestion des ressources GPU côté serveur et offre un environnement moins encombré. Pour les utilisateurs réguliers, la qualité des ombres, des lumières et des textures franchit un palier visible dès les premiers essais, réduisant le nombre de générations nécessaires avant d'obtenir un résultat exploitable. Midjourney avait subi quelques critiques après la V7, jugée décevante par une partie de sa base d'utilisateurs qui attendait un saut plus marqué. La V8 répond à cette pression concurrentielle dans un segment ou Adobe Firefly, Stable Diffusion et les outils de génération de Google et OpenAI se disputent les mêmes créatifs professionnels. Le passage à une interface web propriétaire reflète aussi une stratégie de monétisation et de contrôle plus direct sur l'expérience utilisateur, en s'affranchissant de la dépendance à l'infrastructure Discord. Le déploiement reste semi-fermé en phase alpha, ce qui laisse anticiper des ajustements supplémentaires avant une disponibilité générale. La prochaine étape sera de voir si ces gains de performance se confirment sur des cas d'usage exigeants, et si Midjourney parvient à fidéliser les créatifs qui avaient commencé à explorer des alternatives plus stables.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic