Aller au contenu principal
Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio
CréationLe Big Data4sem

Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio

Résumé IASource uniqueImpact UE
Source originale ↗·

Google a lancé le 15 avril 2026 Gemini 3.1 Flash TTS, son nouveau modèle de synthèse vocale conçu pour donner aux créateurs un contrôle fin sur le rendu émotionnel des voix générées. La principale nouveauté réside dans l'introduction des balises audio, des commandes en langage naturel intégrées directement dans le texte pour piloter le rythme, l'intonation et le style vocal phrase par phrase. Concrètement, un développeur peut indiquer dans sa requête qu'un passage doit être prononcé avec "excitation" ou de manière "explicative", et le modèle adapte sa synthèse en conséquence. Le modèle prend en charge plus de 70 langues, dont 24 bénéficient d'une qualité dite premium, parmi lesquelles l'hindi, le japonais et l'allemand. Il est déjà intégré dans Google Vids, la Gemini API et Google AI Studio, et inclut le watermarking SynthID sur tous les outputs.

Cette capacité à sculpter la voix par instructions textuelles représente un changement de paradigme pour les producteurs de contenu audio et les équipes de développement. Jusqu'ici, les modèles TTS généraient une voix uniforme, difficile à différencier selon le contexte ou le ton voulu. Avec Gemini 3.1 Flash TTS, les entreprises qui produisent des podcasts automatisés, des assistants vocaux, des vidéos pédagogiques ou des expériences de narration interactive peuvent adapter le rendu vocal sans post-production manuelle. La couverture multilingue avec maintien de la cohérence émotionnelle ouvre aussi la voie à des déploiements localisés à grande échelle, un enjeu crucial pour les acteurs globaux qui ne peuvent pas se permettre de perdre en expressivité lors du passage d'une langue à l'autre.

Cette annonce s'inscrit dans une course intense entre les grands acteurs de l'IA générative pour dominer le segment de la voix. OpenAI a lancé ses propres capacités TTS via l'API et ses modèles de voix en temps réel, ElevenLabs a consolidé sa position sur le marché des créateurs, et Microsoft intègre des fonctions similaires dans Azure Cognitive Services. Google, avec DeepMind en soutien, mise sur l'intégration native dans son écosystème existant, Google Vids, AI Studio, pour accélérer l'adoption sans friction. Le fait que Gemini 3.1 Flash TTS soit directement accessible via la Gemini API suggère une stratégie orientée développeurs d'abord, avant un éventuel déploiement grand public. Les prochaines étapes probables incluent une extension des langues premium, un affinement des balises disponibles et une intégration dans NotebookLM ou d'autres outils de productivité Google déjà très utilisés.

Impact France/UE

Les développeurs et producteurs de contenu européens peuvent intégrer dès maintenant des capacités TTS émotionnelles multilingues via la Gemini API, ouvrant la voie à des déploiements localisés à grande échelle sans post-production vocale manuelle.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable
1MarkTechPost 

Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable

Google a lancé Gemini 3.1 Flash TTS, un nouveau modèle de synthèse vocale disponible en préversion via l'API Gemini, Google AI Studio, Vertex AI pour les entreprises et Google Vids pour les utilisateurs Workspace. Le modèle affiche un score Elo de 1 211 sur le classement Artificial Analysis TTS Leaderboard, ce qui en fait le modèle vocal le plus naturel et expressif jamais proposé par Google. Sa particularité technique réside dans le recours à des balises audio et au prompting en langage naturel pour piloter le style, le ton, le rythme, l'accentuation et les nuances dialectales dans plus de 70 langues. Le modèle gère également nativement le dialogue multi-locuteurs, sans nécessiter d'appels API séparés pour chaque voix, ce qui garantit une fluidité conversationnelle bien supérieure aux pipelines TTS traditionnels. Enfin, chaque audio généré intègre automatiquement un filigrane invisible SynthID, conçu pour être imperceptible à l'écoute tout en permettant une détection fiable du contenu généré par IA. Cette version marque un tournant dans la façon dont les développeurs construisent des expériences vocales. En permettant de diriger le modèle comme un réalisateur audio plutôt que de subir une conversion figée, Google ouvre la voie à des cas d'usage bien plus sophistiqués : podcasts générés automatiquement avec plusieurs intervenants distincts, scripts dramatiques, interfaces d'assistants collaboratifs ou encore doublages multilingues. Pour les entreprises clientes de Vertex AI, la combinaison de la qualité benchmark, du contrôle fin et du watermarking intégré répond directement aux exigences de conformité et de traçabilité qui freinent souvent l'adoption de l'audio généré par IA dans des contextes professionnels sensibles. Ce lancement s'inscrit dans une course intense entre les grandes plateformes technologiques pour dominer la synthèse vocale expressive. OpenAI avec ses modèles TTS, ElevenLabs et d'autres acteurs spécialisés ont considérablement élevé le niveau d'attente des développeurs ces deux dernières années. Google répond en misant sur son infrastructure existante, l'intégration native dans l'écosystème Workspace et la profondeur multilingue, des atouts structurels que les startups peinent à répliquer à cette échelle. L'intégration de SynthID dans un modèle grand public est également un signal politique fort : alors que la régulation de l'IA générative s'intensifie en Europe et aux États-Unis, Google anticipe les futures obligations de transparence sur les contenus synthétiques. La suite logique sera d'observer si ce modèle s'impose comme référence dans les benchmarks indépendants et comment les concurrents répondront dans les prochains mois.

UEL'intégration native du filigrane SynthID anticipe les obligations de transparence sur les contenus synthétiques imposées par l'AI Act européen, facilitant la conformité pour les entreprises utilisant Vertex AI.

CréationOpinion
1 source
Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini
2MarkTechPost 

Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini

Google a lancé Veo 3.1 Lite, un nouveau palier de son portefeuille de génération vidéo par IA, désormais disponible via l'API Gemini et Google AI Studio pour les utilisateurs en abonnement payant. Ce modèle se distingue par son positionnement tarifaire agressif : il offre la même vitesse de génération que le modèle Veo 3.1 Fast existant, mais à environ moitié moins cher. Concrètement, la génération en 720p est facturée 0,05 dollar par seconde, et 0,08 dollar par seconde en 1080p — des tarifs qui contrastent avec les plusieurs dollars par minute couramment pratiqués sur le marché de la vidéo IA haute qualité. Le modèle prend en charge des clips de 4, 6 ou 8 secondes, aux formats 16:9 et 9:16, avec une résolution maximale de 1080p (contrairement au Veo 3.1 flagship qui monte jusqu'au 4K). Il reconnaît également des directives cinématographiques précises dans les prompts, comme les instructions de panoramique, d'inclinaison ou d'éclairage. Pour les développeurs qui construisent des applications à fort volume — génération dynamique de publicités, automatisation de contenus pour les réseaux sociaux, prototypage itératif — le coût a longtemps constitué le principal frein à l'adoption industrielle de la vidéo générative. En divisant approximativement la facture par deux sans sacrifier la latence, Google ouvre la voie à des cas d'usage jusqu'ici économiquement inviables. L'intégration passe par l'API Gemini en REST ou gRPC, compatible avec les stacks Python et Node.js existants, ce qui réduit la friction d'adoption pour les équipes déjà dans l'écosystème Google. Chaque vidéo générée intègre également SynthID, le filigrane numérique invisible développé par Google DeepMind : imperceptible à l'œil nu, il reste détectable par des logiciels spécialisés, ce qui répond aux exigences croissantes de traçabilité du contenu synthétique. Sur le plan technique, Veo 3.1 Lite repose sur une architecture Diffusion Transformer (DiT), qui supplante les approches U-Net traditionnelles en traitant les frames vidéo non pas comme des images 2D statiques, mais comme des séquences de tokens dans un espace latent compressé. L'auto-attention appliquée à ces patches spatio-temporels améliore la cohérence temporelle — objets, lumières et textures restent stables tout au long du clip, un problème récurrent des modèles antérieurs. En opérant dans l'espace latent plutôt que dans l'espace pixel, le modèle contient l'empreinte mémoire et évite l'explosion du temps de calcul lors du passage en haute définition. Ce lancement s'inscrit dans une course à la démocratisation de la vidéo IA où Google, face à Sora d'OpenAI et Runway, cherche à consolider sa position en ciblant explicitement les développeurs plutôt que les créatifs, en faisant de la scalabilité économique son principal argument différenciateur.

UELes développeurs européens peuvent intégrer la génération vidéo IA à tarif réduit via l'API Gemini, sans impact réglementaire spécifique à l'UE.

CréationOpinion
1 source
Changement de rotation : comment varier les angles de vue d’un personnage ?
3Le Big Data 

Changement de rotation : comment varier les angles de vue d’un personnage ?

Artspace, plateforme de génération d'images par intelligence artificielle, a déployé une fonctionnalité de "changement de rotation" permettant aux créateurs de modifier l'angle de vue d'un personnage généré sans perdre la cohérence anatomique du sujet. Concrètement, l'outil identifie les points de repère anatomiques de l'image source pour construire un maillage virtuel, puis recalcule en temps réel les ombres, textures et reflets en fonction du nouvel axe de pivotement. Le système agit sur les axes X et Y, permettant de passer d'un portrait de face à un profil ou une vue trois quarts tout en préservant la forme du nez, de la mâchoire, les textures de peau et les détails vestimentaires. Pour optimiser le résultat, Artspace recommande d'utiliser des images sources où le sujet est clairement détaché de son arrière-plan, afin de faciliter la segmentation par l'algorithme, l'éclairage initial conditionnant lui aussi la qualité du rendu final. Cette capacité à maintenir l'identité visuelle d'un personnage sur plusieurs angles représente une avancée significative pour les professionnels de la création visuelle. Un illustrateur ou un designer de personnages peut désormais produire des planches cohérentes, que ce soit pour une bande dessinée, un jeu vidéo ou une campagne de communication, sans craindre que les traits de son sujet ne se déforment d'une case à l'autre. Historiquement, obtenir des vues multiples rigoureusement fidèles d'un même personnage généré par IA relevait du défi technique majeur, obligeant souvent les créateurs à de longues séances de retouche manuelle. En offrant un contrôle directionnel réel plutôt que des variantes algorithmiques aléatoires, Artspace répond directement aux besoins des workflows de production professionnels où la rigueur anatomique n'est pas négociable. La génération d'images par IA a longtemps souffert d'un déficit de contrôle précis : des outils comme Midjourney produisent des rendus de haute qualité brute, mais peinent à garantir la cohérence d'un sujet sur plusieurs générations successives. C'est dans ce contexte que s'inscrit la stratégie d'Artspace, qui se positionne non pas comme un simple générateur texte-vers-image, mais comme un studio tout-en-un intégrant des capacités proches de la modélisation 3D assistée. La fonctionnalité de rotation s'inscrit dans une tendance plus large de l'industrie visant à combler le fossé entre la génération IA grand public et les outils de production professionnels tels que Blender ou Character Creator, donnant ainsi aux créateurs un contrôle accru sur la géométrie et la mise en scène de leurs personnages.

CréationOutil
1 source
Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0
4Pandaily 

Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0

Le 27 avril 2026, Alibaba a annoncé le lancement en bêta de HappyHorse 1.0, son nouveau modèle de génération vidéo par intelligence artificielle. Actuellement accessible aux créateurs professionnels et aux entreprises via inscription, le modèle est également disponible au grand public dans l'application Qwen. HappyHorse 1.0 prend en charge la génération vidéo à partir de texte, d'images ou d'audio, avec des séquences pouvant atteindre 15 secondes, un upscaling en 1080p, plusieurs formats d'image et une narration multi-plans. Le tarif de référence est fixé à 0,9 yuan par seconde pour une vidéo en 720p. Le modèle supporte également plusieurs langues, dont le cantonais, l'anglais, le français et le coréen. Un déploiement commercial est prévu pour le mois de mai, après une phase d'élargissement des tests d'ici fin avril. L'arrivée de HappyHorse 1.0 sur le marché illustre la montée en puissance des géants technologiques asiatiques dans la course à la vidéo générative, un segment en pleine explosion. Pour les créateurs de contenu et les entreprises, un outil capable de produire des vidéos courtes de qualité professionnelle à moins d'un yuan la seconde représente une baisse significative des coûts de production. La prise en charge multilingue native, notamment du français, élargit considérablement le périmètre commercial potentiel au-delà de la Chine. HappyHorse 1.0 a été développé par l'unité ATH d'Alibaba en collaboration avec plusieurs équipes internes, une information confirmée par le groupe le 10 avril. Avant son annonce officielle, le modèle avait déjà figuré sous un nom anonyme dans le classement AI Video Arena d'Artificial Analysis, ce qui suggère qu'Alibaba cherchait à valider ses performances en conditions réelles avant tout lancement public. Cette stratégie s'inscrit dans un contexte de concurrence intense entre acteurs comme Sora (OpenAI), Kling (Kuaishou) ou Vidu (Tencent), tous engagés dans une course à la qualité et à l'accessibilité tarifaire pour s'imposer comme référence de la vidéo générée par IA.

UELa prise en charge native du français ouvre HappyHorse 1.0 aux créateurs et entreprises européens comme outil de production vidéo à faible coût, sans présence ni partenariat européen annoncé à ce stade.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour