Aller au contenu principal
CréationVentureBeat AI50min· 2 min de lecture

Google lance Gemini Flash Omni sur son API, rendant la production vidéo en entreprise conversationnelle

Source originale ↗·

Google a officiellement ouvert l'accès à Gemini Omni Flash via une API pour développeurs et entreprises, quelques semaines après sa présentation aux consommateurs lors de la conférence I/O 2026 en mai. Il s'agit du premier modèle de la nouvelle famille "Omni" de Google, conçue pour générer du contenu "à partir de n'importe quelle entrée", avec une priorité donnée à la vidéo. La fonctionnalité centrale n'est pas simplement la génération de vidéo à partir d'un texte : c'est la capacité d'éditer une vidéo terminée par une conversation en langage naturel, chaque instruction s'appuyant sur la précédente. Un marketeur peut ainsi retravailler l'éclairage d'un plan produit, recadrer l'image ou modifier un costume sans tout régénérer depuis le début et perdre ce qui fonctionnait déjà.

Pour les équipes marketing et formation en entreprise, qui produisent le plus grand volume de vidéos internes, cet outil change concrètement l'équation économique. Jusqu'ici, assembler une vidéo IA nécessitait de connecter cinq outils distincts : un LLM pour le script, un modèle texte-vers-image, un modèle image-vers-vidéo, un outil de synchronisation labiale et un générateur de voix, chacun avec son propre contrat, sa facturation et ses règles de gestion des données. Omni Flash unifie tout cela en un seul modèle qui accepte du texte, des images et des vidéos existantes pour produire un clip avec audio synchronisé. Pour une organisation qui évitait jusqu'ici la vidéo générative parce que l'intégration de ces outils coûtait trop cher en effort, la barrière tombe significativement. Le modèle intègre également un "world model" qui simule le comportement physique des scènes : ajouter de la pluie à un plan existant génère des reflets cohérents des personnes et objets présents sur la chaussée mouillée, ce qui distingue la vidéo IA d'un résultat générique.

Google a lancé Gemini Omni à I/O 2026, mais son absence d'interface programmatique en faisait alors un outil grand public et prosumer, sans intérêt pour les productions en entreprise. Cette ouverture via API corrige précisément ce manque. Le modèle accepte des images de référence et des clips vidéo existants comme ingrédients : fournir la photo d'un objet réel permet de l'insérer dans une scène en respectant sa couleur et sa forme, plutôt que de l'inventer de toutes pièces. La fonctionnalité d'insertion de texte et de logos dans des scènes existantes, utile pour les vidéos de formation ou les publicités localisées, montre des résultats prometteurs mais imparfaits : dans les scènes complexes, le suivi de panneaux et la cohérence textuelle entre les images restent perfectibles. Google souligne lui-même que les sorties nécessitent une relecture humaine avant diffusion, ce qui suggère que l'outil vise à accélérer la production, pas à la remplacer entièrement.

Impact France/UE

Les équipes marketing et formation des entreprises européennes peuvent désormais intégrer l'API Gemini Omni Flash pour unifier leur chaîne de production vidéo IA, supprimant la dépendance à cinq outils distincts et réduisant significativement les coûts d'intégration.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants
1Le Big Data 

Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants

Google a présenté Gemini Omni le 19 mai 2026 lors de sa conférence annuelle Google I/O. Ce nouveau modèle d'intelligence artificielle permet de générer et modifier des vidéos à partir de simples instructions écrites en langage naturel. L'utilisateur peut demander un changement d'angle de caméra, ajuster l'éclairage d'une scène ou transformer entièrement un décor sans passer par un logiciel de montage traditionnel. Google décrit Gemini Omni comme un modèle capable de créer « n'importe quoi à partir de n'importe quelle source ». Le déploiement de la version Flash a débuté le jour même de l'annonce, d'abord pour les abonnés Google AI Plus, Pro et Ultra via l'application Gemini et Google Flow. Un accès gratuit dans YouTube Shorts et l'application YouTube Create doit suivre dans la semaine, et une ouverture via API pour les développeurs et entreprises est prévue dans les prochaines semaines. Ce qui distingue Gemini Omni des générateurs vidéo existants, c'est l'accent mis sur la cohérence et le réalisme physique, deux points notoirement difficiles pour les IA actuelles. Le modèle mémorise chaque instruction précédente pour éviter qu'un personnage change de visage entre deux plans ou qu'un décor se transforme de manière incohérente. Google affirme également que le système comprend mieux la physique des objets et les mouvements dans une scène, ce qui devrait produire des vidéos plus proches d'une production audiovisuelle classique que des artefacts expérimentaux. Pour les créateurs de contenu, les équipes marketing et les professionnels de la communication, cela représente un gain de temps considérable : là où il fallait maîtriser plusieurs logiciels, une conversation suffit désormais pour itérer sur une production vidéo. Google s'inscrit dans une course à la génération vidéo par IA qui s'est intensifiée depuis le lancement de Sora par OpenAI fin 2023, suivi de Runway, Kling et d'autres outils spécialisés. En intégrant Gemini Omni directement dans ses plateformes grand public, YouTube en tête, avec ses plus de 2,5 milliards d'utilisateurs actifs, Google parie sur la distribution comme avantage concurrentiel plutôt que sur la seule performance technique. L'intégration dans Google Flow, outil de production assistée par IA lancé plus tôt cette année, suggère une stratégie plus large visant à faire de Gemini le socle créatif de l'ensemble de l'écosystème Google. La prochaine étape sera de voir si les performances en conditions réelles sont à la hauteur des démonstrations, et si l'accès API permettra à des services tiers de construire de nouveaux usages autour du modèle.

UELes développeurs et entreprises européens pourront accéder via API à un générateur vidéo IA intégré nativement à YouTube et Google Flow, avec un déploiement grand public via YouTube Shorts prévu dans la semaine.

💬 La cohérence des personnages d'un plan à l'autre, c'était le talon d'Achille de tous ces outils. Gemini Omni semble avoir sérieusement bossé là-dessus, et si ça tient en conditions réelles, ça débloque des usages pro qui étaient encore impossibles il y a six mois. La vraie arme de Google, c'est pas la technique, c'est YouTube.

CréationActu
1 source
2VentureBeat AI 

Google dévoile Gemini 3.1 Flash-Lite pour générer des images d'entreprise en 4 secondes à moindre coût

Google a lancé ce jour un nouveau modèle de génération d'images baptisé Nano Banana 2 Lite, officiellement désigné Gemini 3.1 Flash-Lite Image dans son API. Ce modèle est immédiatement disponible pour les développeurs entreprise via Google AI Studio, l'API Gemini et la plateforme GEAP (Gemini Enterprise Agent Platform). Sa promesse principale est double : vitesse et faible coût. Il génère une image en 4 secondes au format 1024x1024 pixels, pour un tarif fixe de 0,034 dollar par tranche de mille images. Construit sur l'architecture Gemini 3.1 Flash Lite, il succède à Nano Banana 1 (Gemini 2.5 Flash Image) avec des améliorations ciblées : meilleure cohérence des personnages sur des séquences continues, rendu typographique localisé, et connaissance générale du monde renforcée pour générer des visualisations de données ou des mises en scène contextuelles. Dans les benchmarks internes, il obtient un score Elo de 1 251 en génération texte-vers-image, dépassant à la fois le modèle précédent (1 151) et même le Nano Banana Pro, plus lourd et plus coûteux (1 245). La seule limitation assumée est la résolution : contrairement aux modèles NB2 standard et NB Pro qui supportent 1k, 2k et 4k, ce modèle Lite se cantonne au 1k. L'enjeu commercial est clair. Google ne positionne pas ce modèle comme un outil créatif artistique, mais comme une couche utilitaire invisible pour les flux de travail automatisés à grand volume. Les ingénieurs logiciels, les plateformes publicitaires programmatiques et les applications de commerce numérique sont les cibles directes. Concrètement, cela signifie des milliers de variantes visuelles pour des tests A/B publicitaires en temps réel, des ajustements instantanés de visuels pour des vitrines localisées, ou encore la génération automatique d'assets pour des prototypes. À 0,034 dollar le millier d'images, le modèle change radicalement l'équation économique pour les applications qui génèrent des images à l'échelle industrielle. Cette sortie s'inscrit dans une période d'intense compétition sur le segment des modèles d'image rapides et bon marché. Google annonce également en parallèle la préversion publique de Gemini Omni Flash, un modèle multimodal orienté génération et édition vidéo conversationnelle. Nano Banana 2 Lite complète donc une offre stratifiée : d'un côté, des modèles puissants et flexibles pour la création complexe, de l'autre un moteur léger optimisé pour l'infrastructure. Le comparatif avec Krea 2 Turbo de la startup Krea est instructif : ce concurrent propose une licence partiellement ouverte et des capacités de personnalisation plus larges pour les petites entreprises, là où Google mise sur l'intégration native à son écosystème Workspace et ses offres IA d'entreprise. La bataille se joue autant sur le prix que sur l'écosystème, et Google dispose ici d'un avantage structurel considérable auprès de ses clients existants.

UELes entreprises européennes opérant à grand volume dans la publicité programmatique ou le e-commerce peuvent immédiatement réduire leurs coûts de génération d'images en adoptant ce modèle via l'API Gemini.

CréationActu
1 source
Gemini Omni vs Seedance 2.0 : quelle est la meilleure IA de génération vidéo en 2026 ?
3Le Big Data 

Gemini Omni vs Seedance 2.0 : quelle est la meilleure IA de génération vidéo en 2026 ?

Google a officiellement lancé Gemini Omni le 19 mai 2026 lors de son Google I/O annuel, entrant directement en concurrence avec Seedance 2.0 de ByteDance, sorti dès le 12 février 2026. Ces deux modèles représentent aujourd'hui le sommet de la génération vidéo par IA. Gemini Omni remplace Veo 3.1 dans l'application Gemini et introduit une nouveauté de fond : l'édition conversationnelle. L'utilisateur génère un clip, puis demande en langage naturel de modifier l'arrière-plan, de changer un personnage ou de stabiliser une séquence, sans passer par une timeline ou des calques. Seedance 2.0, lui, trône en tête du classement Artificial Analysis Video Arena avec un score Elo de 1 269 en texte-vers-vidéo et 1 351 en image-vers-vidéo, devant Kling 3.0, Veo 3.1 et Sora 2. Sa signature technique est la génération audio native et synchronisée en une seule passe : chaque son d'impact, chaque ambiance musicale est produit automatiquement au bon moment, sans post-production. L'enjeu commercial est clair : la vidéo générée par IA sort du stade expérimental pour devenir un outil de production réel. Pour les créateurs de contenu, les agences et les entreprises, le choix entre ces deux plateformes aura des conséquences concrètes sur les flux de travail. Gemini Omni cible les utilisateurs déjà dans l'écosystème Google, avec une intégration native à Google Photos, Workspace, YouTube et Android, ainsi que la possibilité de créer des avatars numériques réutilisables. Seedance 2.0 s'adresse davantage aux professionnels qui cherchent une qualité visuelle maximale et un contrôle précis via des références multiples et des keyframes. Sur le plan tarifaire, Google propose Gemini Omni dès 19,99 dollars par mois (plan Pro), avec un plan Ultra redescendu à 99,99 dollars lors du Google I/O, après avoir été affiché à 249 dollars. L'API, attendue dans les semaines à venir, devrait coûter environ 0,10 dollar par seconde en qualité standard. Cette confrontation s'inscrit dans une bataille plus large entre les grandes plateformes technologiques pour contrôler les outils de création vidéo à l'ère de l'IA générative. ByteDance bénéficie d'un avantage structurel : Seedance 2.0 a été entraîné sur des milliards de vidéos TikTok et Douyin, lui conférant une compréhension fine des dynamiques corporelles et des esthétiques populaires. Google, de son côté, mise sur l'intégration écosystème et la facilité d'usage conversationnel pour compenser un léger retard sur la qualité brute de génération, reconnu par les premières analyses indépendantes. L'API Gemini Omni n'étant pas encore disponible, le déploiement est encore partiel, ce qui laisse à Seedance 2.0 quelques semaines supplémentaires pour consolider sa position de référence sur le marché.

UELes professionnels européens de la création vidéo ont accès à deux nouvelles plateformes de génération vidéo IA de niveau production, susceptibles de transformer leurs flux de travail et de réduire les coûts de post-production.

💬 Seedance 2.0 écrase les benchmarks, c'est factuel. Mais Google joue un jeu différent : l'édition conversationnelle sans timeline, intégrée nativement dans l'écosystème que tout le monde utilise déjà, c'est le genre de truc qui fait bouger les usages en masse, même avec un léger retard sur la qualité brute. L'API Gemini pas encore dispo, ByteDance entraîné sur des milliards de TikToks : les prochaines semaines vont être intéressantes à suivre.

CréationOpinion
1 source
Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable
4MarkTechPost 

Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable

Google a lancé Gemini 3.1 Flash TTS, un nouveau modèle de synthèse vocale disponible en préversion via l'API Gemini, Google AI Studio, Vertex AI pour les entreprises et Google Vids pour les utilisateurs Workspace. Le modèle affiche un score Elo de 1 211 sur le classement Artificial Analysis TTS Leaderboard, ce qui en fait le modèle vocal le plus naturel et expressif jamais proposé par Google. Sa particularité technique réside dans le recours à des balises audio et au prompting en langage naturel pour piloter le style, le ton, le rythme, l'accentuation et les nuances dialectales dans plus de 70 langues. Le modèle gère également nativement le dialogue multi-locuteurs, sans nécessiter d'appels API séparés pour chaque voix, ce qui garantit une fluidité conversationnelle bien supérieure aux pipelines TTS traditionnels. Enfin, chaque audio généré intègre automatiquement un filigrane invisible SynthID, conçu pour être imperceptible à l'écoute tout en permettant une détection fiable du contenu généré par IA. Cette version marque un tournant dans la façon dont les développeurs construisent des expériences vocales. En permettant de diriger le modèle comme un réalisateur audio plutôt que de subir une conversion figée, Google ouvre la voie à des cas d'usage bien plus sophistiqués : podcasts générés automatiquement avec plusieurs intervenants distincts, scripts dramatiques, interfaces d'assistants collaboratifs ou encore doublages multilingues. Pour les entreprises clientes de Vertex AI, la combinaison de la qualité benchmark, du contrôle fin et du watermarking intégré répond directement aux exigences de conformité et de traçabilité qui freinent souvent l'adoption de l'audio généré par IA dans des contextes professionnels sensibles. Ce lancement s'inscrit dans une course intense entre les grandes plateformes technologiques pour dominer la synthèse vocale expressive. OpenAI avec ses modèles TTS, ElevenLabs et d'autres acteurs spécialisés ont considérablement élevé le niveau d'attente des développeurs ces deux dernières années. Google répond en misant sur son infrastructure existante, l'intégration native dans l'écosystème Workspace et la profondeur multilingue, des atouts structurels que les startups peinent à répliquer à cette échelle. L'intégration de SynthID dans un modèle grand public est également un signal politique fort : alors que la régulation de l'IA générative s'intensifie en Europe et aux États-Unis, Google anticipe les futures obligations de transparence sur les contenus synthétiques. La suite logique sera d'observer si ce modèle s'impose comme référence dans les benchmarks indépendants et comment les concurrents répondront dans les prochains mois.

UEL'intégration native du filigrane SynthID anticipe les obligations de transparence sur les contenus synthétiques imposées par l'AI Act européen, facilitant la conformité pour les entreprises utilisant Vertex AI.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic