Aller au contenu principal
CréationThe Decoder11h· 1 min de lecture

Google lance Nano Banana 2 Lite pour la génération rapide d'images IA et Gemini Omni Flash pour la vidéo via API

Source originale ↗·

Google enrichit sa gamme de modèles génératifs avec deux nouveaux outils. Nano Banana 2 Lite génère des images en quatre secondes, pour un coût de 0,034 dollar par image. Gemini Omni Flash, de son côté, fait son entrée dans l'API avec une capacité inédite pour Google : la génération et l'édition de vidéos à partir de simples prompts textuels. L'entreprise recommande d'ailleurs de chaîner les deux modèles pour un flux de travail complet, en partant d'une image générée rapidement puis en l'animant sous forme de vidéo courte.

Cette double annonce répond à une demande croissante des développeurs pour des outils multimédias rapides et économiques, intégrables directement dans des applications ou des pipelines de production de contenu. La vitesse de génération de Nano Banana 2 Lite, quatre secondes seulement, en fait un candidat sérieux pour les cas d'usage nécessitant de la réactivité, comme les interfaces conversationnelles ou les générateurs de contenu en temps réel. Quant à Gemini Omni Flash, il ouvre la porte à des usages jusque là réservés à des outils spécialisés et coûteux, comme la retouche vidéo pilotée par texte, désormais accessible via une simple requête API.

Cette annonce s'inscrit dans la compétition intense que se livrent les grands acteurs de l'IA générative, Google, OpenAI et Meta en tête, pour dominer le marché des outils de création multimédia. Après avoir lancé les premières versions de Nano Banana pour la génération d'images, Google accélère la cadence en misant sur la rapidité et le faible coût comme arguments de différenciation face à ses concurrents. L'intégration de la génération vidéo directement dans l'API Gemini marque aussi une étape vers des workflows entièrement automatisés, où texte, image et vidéo pourraient être générés et combinés sans intervention humaine, une tendance appelée à s'accélérer dans les mois à venir.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini
1MarkTechPost 

Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini

Google a lancé Veo 3.1 Lite, un nouveau palier de son portefeuille de génération vidéo par IA, désormais disponible via l'API Gemini et Google AI Studio pour les utilisateurs en abonnement payant. Ce modèle se distingue par son positionnement tarifaire agressif : il offre la même vitesse de génération que le modèle Veo 3.1 Fast existant, mais à environ moitié moins cher. Concrètement, la génération en 720p est facturée 0,05 dollar par seconde, et 0,08 dollar par seconde en 1080p — des tarifs qui contrastent avec les plusieurs dollars par minute couramment pratiqués sur le marché de la vidéo IA haute qualité. Le modèle prend en charge des clips de 4, 6 ou 8 secondes, aux formats 16:9 et 9:16, avec une résolution maximale de 1080p (contrairement au Veo 3.1 flagship qui monte jusqu'au 4K). Il reconnaît également des directives cinématographiques précises dans les prompts, comme les instructions de panoramique, d'inclinaison ou d'éclairage. Pour les développeurs qui construisent des applications à fort volume — génération dynamique de publicités, automatisation de contenus pour les réseaux sociaux, prototypage itératif — le coût a longtemps constitué le principal frein à l'adoption industrielle de la vidéo générative. En divisant approximativement la facture par deux sans sacrifier la latence, Google ouvre la voie à des cas d'usage jusqu'ici économiquement inviables. L'intégration passe par l'API Gemini en REST ou gRPC, compatible avec les stacks Python et Node.js existants, ce qui réduit la friction d'adoption pour les équipes déjà dans l'écosystème Google. Chaque vidéo générée intègre également SynthID, le filigrane numérique invisible développé par Google DeepMind : imperceptible à l'œil nu, il reste détectable par des logiciels spécialisés, ce qui répond aux exigences croissantes de traçabilité du contenu synthétique. Sur le plan technique, Veo 3.1 Lite repose sur une architecture Diffusion Transformer (DiT), qui supplante les approches U-Net traditionnelles en traitant les frames vidéo non pas comme des images 2D statiques, mais comme des séquences de tokens dans un espace latent compressé. L'auto-attention appliquée à ces patches spatio-temporels améliore la cohérence temporelle — objets, lumières et textures restent stables tout au long du clip, un problème récurrent des modèles antérieurs. En opérant dans l'espace latent plutôt que dans l'espace pixel, le modèle contient l'empreinte mémoire et évite l'explosion du temps de calcul lors du passage en haute définition. Ce lancement s'inscrit dans une course à la démocratisation de la vidéo IA où Google, face à Sora d'OpenAI et Runway, cherche à consolider sa position en ciblant explicitement les développeurs plutôt que les créatifs, en faisant de la scalabilité économique son principal argument différenciateur.

UELes développeurs européens peuvent intégrer la génération vidéo IA à tarif réduit via l'API Gemini, sans impact réglementaire spécifique à l'UE.

CréationOpinion
1 source
« Nano Banana 2 Lite » de Google : son nouveau modèle d'image, le plus rapide et le moins cher à ce jour
2Ars Technica AI 

« Nano Banana 2 Lite » de Google : son nouveau modèle d'image, le plus rapide et le moins cher à ce jour

Google DeepMind a dévoilé Nano Banana 2 Lite, son nouveau modèle de génération d'images, présenté comme le plus rapide et le moins coûteux de sa gamme. Techniquement baptisé Gemini 3.1 Flash Lite Image, il appartient à la famille Gemini 3.1 et est disponible dès aujourd'hui sur l'ensemble de l'écosystème Google. Sa principale promesse est de produire des images en une fraction du temps requis par les modèles plus lourds de l'entreprise, tout en conservant une qualité proche de celle des versions standard. Pour étayer cette affirmation, Google s'appuie sur des scores Elo issus de la plateforme Arena.ai, qui montrent que les utilisateurs évaluent les résultats de Nano Banana 2 Lite presque aussi favorablement que ceux des versions non allégées du modèle. Cette nouveauté répond à un problème concret du secteur : les modèles d'image les plus qualitatifs sont généralement lents et onéreux, ce qui freine leur usage pour des tâches d'itération rapide. En misant sur la vitesse et le faible coût, Google cible explicitement les usages de prototypage et d'exploration créative, où la rapidité d'exécution compte davantage que la perfection du rendu final. Pour les développeurs et créateurs qui génèrent de nombreuses variantes avant de retenir une image définitive, ce gain de réactivité peut réduire significativement les coûts d'infrastructure et accélérer les flux de travail créatifs. Google reconnaît toutefois des limites : le modèle peine davantage avec le texte intégré aux images, en particulier les caractères de petite taille, et les infographies générées contiennent plus souvent des données erronées. La cohérence des personnages et des visages d'une génération à l'autre reste également moins fiable que sur les modèles complets. Ces compromis illustrent une tendance plus large du secteur de l'IA générative, où les éditeurs déclinent désormais leurs modèles phares en versions allégées afin de répondre à des besoins différenciés selon les usages, qu'il s'agisse de production finale soignée ou de simple exploration d'idées à grande échelle.

CréationActu
1 source
Google lance Gemini Flash Omni sur son API, rendant la production vidéo en entreprise conversationnelle
3VentureBeat AI 

Google lance Gemini Flash Omni sur son API, rendant la production vidéo en entreprise conversationnelle

Google a officiellement ouvert l'accès à Gemini Omni Flash via une API pour développeurs et entreprises, quelques semaines après sa présentation aux consommateurs lors de la conférence I/O 2026 en mai. Il s'agit du premier modèle de la nouvelle famille "Omni" de Google, conçue pour générer du contenu "à partir de n'importe quelle entrée", avec une priorité donnée à la vidéo. La fonctionnalité centrale n'est pas simplement la génération de vidéo à partir d'un texte : c'est la capacité d'éditer une vidéo terminée par une conversation en langage naturel, chaque instruction s'appuyant sur la précédente. Un marketeur peut ainsi retravailler l'éclairage d'un plan produit, recadrer l'image ou modifier un costume sans tout régénérer depuis le début et perdre ce qui fonctionnait déjà. Pour les équipes marketing et formation en entreprise, qui produisent le plus grand volume de vidéos internes, cet outil change concrètement l'équation économique. Jusqu'ici, assembler une vidéo IA nécessitait de connecter cinq outils distincts : un LLM pour le script, un modèle texte-vers-image, un modèle image-vers-vidéo, un outil de synchronisation labiale et un générateur de voix, chacun avec son propre contrat, sa facturation et ses règles de gestion des données. Omni Flash unifie tout cela en un seul modèle qui accepte du texte, des images et des vidéos existantes pour produire un clip avec audio synchronisé. Pour une organisation qui évitait jusqu'ici la vidéo générative parce que l'intégration de ces outils coûtait trop cher en effort, la barrière tombe significativement. Le modèle intègre également un "world model" qui simule le comportement physique des scènes : ajouter de la pluie à un plan existant génère des reflets cohérents des personnes et objets présents sur la chaussée mouillée, ce qui distingue la vidéo IA d'un résultat générique. Google a lancé Gemini Omni à I/O 2026, mais son absence d'interface programmatique en faisait alors un outil grand public et prosumer, sans intérêt pour les productions en entreprise. Cette ouverture via API corrige précisément ce manque. Le modèle accepte des images de référence et des clips vidéo existants comme ingrédients : fournir la photo d'un objet réel permet de l'insérer dans une scène en respectant sa couleur et sa forme, plutôt que de l'inventer de toutes pièces. La fonctionnalité d'insertion de texte et de logos dans des scènes existantes, utile pour les vidéos de formation ou les publicités localisées, montre des résultats prometteurs mais imparfaits : dans les scènes complexes, le suivi de panneaux et la cohérence textuelle entre les images restent perfectibles. Google souligne lui-même que les sorties nécessitent une relecture humaine avant diffusion, ce qui suggère que l'outil vise à accélérer la production, pas à la remplacer entièrement.

UELes équipes marketing et formation des entreprises européennes peuvent désormais intégrer l'API Gemini Omni Flash pour unifier leur chaîne de production vidéo IA, supprimant la dépendance à cinq outils distincts et réduisant significativement les coûts d'intégration.

💬 Ce qui change avec Omni Flash, c'est pas la génération vidéo en soi, c'est qu'on peut enfin retoucher un plan fini à la voix au lieu de tout recracher depuis zéro à chaque instruction. Avant, une boîte qui voulait faire de la vidéo IA payait cinq abonnements et bricolait les exports entre eux, là Google range tout ça dans une seule API, et c'est le genre de truc qu'on attendait depuis deux ans. Reste que le texte part encore en vrille dans les scènes complexes et que Google demande lui-même une relecture humaine avant diffusion, donc le monteur garde son job, mais son rythme de boulot vient de changer.

CréationOpinion
1 source
Gemini Omni vs Seedance 2.0 : quelle est la meilleure IA de génération vidéo en 2026 ?
4Le Big Data 

Gemini Omni vs Seedance 2.0 : quelle est la meilleure IA de génération vidéo en 2026 ?

Google a officiellement lancé Gemini Omni le 19 mai 2026 lors de son Google I/O annuel, entrant directement en concurrence avec Seedance 2.0 de ByteDance, sorti dès le 12 février 2026. Ces deux modèles représentent aujourd'hui le sommet de la génération vidéo par IA. Gemini Omni remplace Veo 3.1 dans l'application Gemini et introduit une nouveauté de fond : l'édition conversationnelle. L'utilisateur génère un clip, puis demande en langage naturel de modifier l'arrière-plan, de changer un personnage ou de stabiliser une séquence, sans passer par une timeline ou des calques. Seedance 2.0, lui, trône en tête du classement Artificial Analysis Video Arena avec un score Elo de 1 269 en texte-vers-vidéo et 1 351 en image-vers-vidéo, devant Kling 3.0, Veo 3.1 et Sora 2. Sa signature technique est la génération audio native et synchronisée en une seule passe : chaque son d'impact, chaque ambiance musicale est produit automatiquement au bon moment, sans post-production. L'enjeu commercial est clair : la vidéo générée par IA sort du stade expérimental pour devenir un outil de production réel. Pour les créateurs de contenu, les agences et les entreprises, le choix entre ces deux plateformes aura des conséquences concrètes sur les flux de travail. Gemini Omni cible les utilisateurs déjà dans l'écosystème Google, avec une intégration native à Google Photos, Workspace, YouTube et Android, ainsi que la possibilité de créer des avatars numériques réutilisables. Seedance 2.0 s'adresse davantage aux professionnels qui cherchent une qualité visuelle maximale et un contrôle précis via des références multiples et des keyframes. Sur le plan tarifaire, Google propose Gemini Omni dès 19,99 dollars par mois (plan Pro), avec un plan Ultra redescendu à 99,99 dollars lors du Google I/O, après avoir été affiché à 249 dollars. L'API, attendue dans les semaines à venir, devrait coûter environ 0,10 dollar par seconde en qualité standard. Cette confrontation s'inscrit dans une bataille plus large entre les grandes plateformes technologiques pour contrôler les outils de création vidéo à l'ère de l'IA générative. ByteDance bénéficie d'un avantage structurel : Seedance 2.0 a été entraîné sur des milliards de vidéos TikTok et Douyin, lui conférant une compréhension fine des dynamiques corporelles et des esthétiques populaires. Google, de son côté, mise sur l'intégration écosystème et la facilité d'usage conversationnel pour compenser un léger retard sur la qualité brute de génération, reconnu par les premières analyses indépendantes. L'API Gemini Omni n'étant pas encore disponible, le déploiement est encore partiel, ce qui laisse à Seedance 2.0 quelques semaines supplémentaires pour consolider sa position de référence sur le marché.

UELes professionnels européens de la création vidéo ont accès à deux nouvelles plateformes de génération vidéo IA de niveau production, susceptibles de transformer leurs flux de travail et de réduire les coûts de post-production.

💬 Seedance 2.0 écrase les benchmarks, c'est factuel. Mais Google joue un jeu différent : l'édition conversationnelle sans timeline, intégrée nativement dans l'écosystème que tout le monde utilise déjà, c'est le genre de truc qui fait bouger les usages en masse, même avec un léger retard sur la qualité brute. L'API Gemini pas encore dispo, ByteDance entraîné sur des milliards de TikToks : les prochaines semaines vont être intéressantes à suivre.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic