Aller au contenu principal
CréationVentureBeat AI1h· 2 min de lecture

Google dévoile Gemini 3.1 Flash-Lite pour générer des images d'entreprise en 4 secondes à moindre coût

Source originale ↗·

Google a lancé ce jour un nouveau modèle de génération d'images baptisé Nano Banana 2 Lite, officiellement désigné Gemini 3.1 Flash-Lite Image dans son API. Ce modèle est immédiatement disponible pour les développeurs entreprise via Google AI Studio, l'API Gemini et la plateforme GEAP (Gemini Enterprise Agent Platform). Sa promesse principale est double : vitesse et faible coût. Il génère une image en 4 secondes au format 1024x1024 pixels, pour un tarif fixe de 0,034 dollar par tranche de mille images. Construit sur l'architecture Gemini 3.1 Flash Lite, il succède à Nano Banana 1 (Gemini 2.5 Flash Image) avec des améliorations ciblées : meilleure cohérence des personnages sur des séquences continues, rendu typographique localisé, et connaissance générale du monde renforcée pour générer des visualisations de données ou des mises en scène contextuelles. Dans les benchmarks internes, il obtient un score Elo de 1 251 en génération texte-vers-image, dépassant à la fois le modèle précédent (1 151) et même le Nano Banana Pro, plus lourd et plus coûteux (1 245). La seule limitation assumée est la résolution : contrairement aux modèles NB2 standard et NB Pro qui supportent 1k, 2k et 4k, ce modèle Lite se cantonne au 1k.

L'enjeu commercial est clair. Google ne positionne pas ce modèle comme un outil créatif artistique, mais comme une couche utilitaire invisible pour les flux de travail automatisés à grand volume. Les ingénieurs logiciels, les plateformes publicitaires programmatiques et les applications de commerce numérique sont les cibles directes. Concrètement, cela signifie des milliers de variantes visuelles pour des tests A/B publicitaires en temps réel, des ajustements instantanés de visuels pour des vitrines localisées, ou encore la génération automatique d'assets pour des prototypes. À 0,034 dollar le millier d'images, le modèle change radicalement l'équation économique pour les applications qui génèrent des images à l'échelle industrielle.

Cette sortie s'inscrit dans une période d'intense compétition sur le segment des modèles d'image rapides et bon marché. Google annonce également en parallèle la préversion publique de Gemini Omni Flash, un modèle multimodal orienté génération et édition vidéo conversationnelle. Nano Banana 2 Lite complète donc une offre stratifiée : d'un côté, des modèles puissants et flexibles pour la création complexe, de l'autre un moteur léger optimisé pour l'infrastructure. Le comparatif avec Krea 2 Turbo de la startup Krea est instructif : ce concurrent propose une licence partiellement ouverte et des capacités de personnalisation plus larges pour les petites entreprises, là où Google mise sur l'intégration native à son écosystème Workspace et ses offres IA d'entreprise. La bataille se joue autant sur le prix que sur l'écosystème, et Google dispose ici d'un avantage structurel considérable auprès de ses clients existants.

Impact France/UE

Les entreprises européennes opérant à grand volume dans la publicité programmatique ou le e-commerce peuvent immédiatement réduire leurs coûts de génération d'images en adoptant ce modèle via l'API Gemini.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI 

Google lance Gemini Flash Omni sur son API, rendant la production vidéo en entreprise conversationnelle

Google a officiellement ouvert l'accès à Gemini Omni Flash via une API pour développeurs et entreprises, quelques semaines après sa présentation aux consommateurs lors de la conférence I/O 2026 en mai. Il s'agit du premier modèle de la nouvelle famille "Omni" de Google, conçue pour générer du contenu "à partir de n'importe quelle entrée", avec une priorité donnée à la vidéo. La fonctionnalité centrale n'est pas simplement la génération de vidéo à partir d'un texte : c'est la capacité d'éditer une vidéo terminée par une conversation en langage naturel, chaque instruction s'appuyant sur la précédente. Un marketeur peut ainsi retravailler l'éclairage d'un plan produit, recadrer l'image ou modifier un costume sans tout régénérer depuis le début et perdre ce qui fonctionnait déjà. Pour les équipes marketing et formation en entreprise, qui produisent le plus grand volume de vidéos internes, cet outil change concrètement l'équation économique. Jusqu'ici, assembler une vidéo IA nécessitait de connecter cinq outils distincts : un LLM pour le script, un modèle texte-vers-image, un modèle image-vers-vidéo, un outil de synchronisation labiale et un générateur de voix, chacun avec son propre contrat, sa facturation et ses règles de gestion des données. Omni Flash unifie tout cela en un seul modèle qui accepte du texte, des images et des vidéos existantes pour produire un clip avec audio synchronisé. Pour une organisation qui évitait jusqu'ici la vidéo générative parce que l'intégration de ces outils coûtait trop cher en effort, la barrière tombe significativement. Le modèle intègre également un "world model" qui simule le comportement physique des scènes : ajouter de la pluie à un plan existant génère des reflets cohérents des personnes et objets présents sur la chaussée mouillée, ce qui distingue la vidéo IA d'un résultat générique. Google a lancé Gemini Omni à I/O 2026, mais son absence d'interface programmatique en faisait alors un outil grand public et prosumer, sans intérêt pour les productions en entreprise. Cette ouverture via API corrige précisément ce manque. Le modèle accepte des images de référence et des clips vidéo existants comme ingrédients : fournir la photo d'un objet réel permet de l'insérer dans une scène en respectant sa couleur et sa forme, plutôt que de l'inventer de toutes pièces. La fonctionnalité d'insertion de texte et de logos dans des scènes existantes, utile pour les vidéos de formation ou les publicités localisées, montre des résultats prometteurs mais imparfaits : dans les scènes complexes, le suivi de panneaux et la cohérence textuelle entre les images restent perfectibles. Google souligne lui-même que les sorties nécessitent une relecture humaine avant diffusion, ce qui suggère que l'outil vise à accélérer la production, pas à la remplacer entièrement.

UELes équipes marketing et formation des entreprises européennes peuvent désormais intégrer l'API Gemini Omni Flash pour unifier leur chaîne de production vidéo IA, supprimant la dépendance à cinq outils distincts et réduisant significativement les coûts d'intégration.

CréationOpinion
1 source
2The Verge AI 

Gemini peut désormais accéder à Google Photos pour générer des images personnalisées

Google a déployé une nouvelle fonctionnalité pour son assistant Gemini, lui permettant désormais de puiser dans les données de Google Photos pour générer des images personnalisées. Baptisée "Personal Intelligence", cette intégration s'appuie sur le modèle de génération d'images Nano Banana 2 et donne accès au contenu des applications Google connectées au compte de l'utilisateur. Concrètement, des requêtes comme "Dessine ma maison de rêve" ou "Crée une image de mes essentiels sur une île déserte" produisent des visuels automatiquement adaptés aux goûts et au style de vie de la personne, selon Google dans son billet de blog officiel. L'impact est significatif pour les utilisateurs de l'écosystème Google : pour la première fois, un assistant IA grand public génère des images non pas à partir d'une description textuelle abstraite, mais à partir de données réelles et personnelles. Le système analyse les étiquettes et métadonnées présentes dans Google Photos pour identifier l'utilisateur, ses proches et ses habitudes visuelles. Cela transforme Gemini d'un générateur d'images générique en un outil de création véritablement contextualisé. Cette fonctionnalité s'inscrit dans la stratégie plus large de Google visant à différencier Gemini face à des concurrents comme ChatGPT ou Claude, en exploitant son avantage unique : une base d'utilisateurs déjà massivement ancrée dans ses services. L'accès aux données personnelles pour alimenter l'IA soulève néanmoins des questions de confidentialité que Google devra adresser, notamment dans le contexte réglementaire européen où de telles pratiques font l'objet d'une surveillance accrue.

UEL'utilisation de données personnelles (Google Photos) pour alimenter la génération d'images soulève des questions de conformité au RGPD et pourrait attirer l'attention des autorités de protection des données européennes, notamment la CNIL.

💬 Honnêtement, c'est un pas en avant intéressant pour Gemini. Enfin, on passe d'une simple description textuelle pour obtenir une image à une génération visuelle contextualisée, c'est plus prometteur. Google exploite son écosystème de données personnelles pour donner vie à des créations plus pertinentes. Cependant, il faudra que Google soit transparent sur la manière dont ces données sont utilisées et protégées, surtout avec le RGPD en jeu. Reste à voir si cette "Personnal Intelligence" tiendra la route face aux critiques de confidentialité.

CréationOutil
1 source
Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable
3MarkTechPost 

Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable

Google a lancé Gemini 3.1 Flash TTS, un nouveau modèle de synthèse vocale disponible en préversion via l'API Gemini, Google AI Studio, Vertex AI pour les entreprises et Google Vids pour les utilisateurs Workspace. Le modèle affiche un score Elo de 1 211 sur le classement Artificial Analysis TTS Leaderboard, ce qui en fait le modèle vocal le plus naturel et expressif jamais proposé par Google. Sa particularité technique réside dans le recours à des balises audio et au prompting en langage naturel pour piloter le style, le ton, le rythme, l'accentuation et les nuances dialectales dans plus de 70 langues. Le modèle gère également nativement le dialogue multi-locuteurs, sans nécessiter d'appels API séparés pour chaque voix, ce qui garantit une fluidité conversationnelle bien supérieure aux pipelines TTS traditionnels. Enfin, chaque audio généré intègre automatiquement un filigrane invisible SynthID, conçu pour être imperceptible à l'écoute tout en permettant une détection fiable du contenu généré par IA. Cette version marque un tournant dans la façon dont les développeurs construisent des expériences vocales. En permettant de diriger le modèle comme un réalisateur audio plutôt que de subir une conversion figée, Google ouvre la voie à des cas d'usage bien plus sophistiqués : podcasts générés automatiquement avec plusieurs intervenants distincts, scripts dramatiques, interfaces d'assistants collaboratifs ou encore doublages multilingues. Pour les entreprises clientes de Vertex AI, la combinaison de la qualité benchmark, du contrôle fin et du watermarking intégré répond directement aux exigences de conformité et de traçabilité qui freinent souvent l'adoption de l'audio généré par IA dans des contextes professionnels sensibles. Ce lancement s'inscrit dans une course intense entre les grandes plateformes technologiques pour dominer la synthèse vocale expressive. OpenAI avec ses modèles TTS, ElevenLabs et d'autres acteurs spécialisés ont considérablement élevé le niveau d'attente des développeurs ces deux dernières années. Google répond en misant sur son infrastructure existante, l'intégration native dans l'écosystème Workspace et la profondeur multilingue, des atouts structurels que les startups peinent à répliquer à cette échelle. L'intégration de SynthID dans un modèle grand public est également un signal politique fort : alors que la régulation de l'IA générative s'intensifie en Europe et aux États-Unis, Google anticipe les futures obligations de transparence sur les contenus synthétiques. La suite logique sera d'observer si ce modèle s'impose comme référence dans les benchmarks indépendants et comment les concurrents répondront dans les prochains mois.

UEL'intégration native du filigrane SynthID anticipe les obligations de transparence sur les contenus synthétiques imposées par l'AI Act européen, facilitant la conformité pour les entreprises utilisant Vertex AI.

CréationOpinion
1 source
Génération d'images IA d'entreprise en 2 secondes : Krea 2 Raw et Turbo en open weights sous licence personnalisée
4VentureBeat AI 

Génération d'images IA d'entreprise en 2 secondes : Krea 2 Raw et Turbo en open weights sous licence personnalisée

La startup américaine Krea vient d'ouvrir les poids de son nouveau modèle de génération d'images Krea 2, disponible en deux variantes sur Hugging Face : « Krea 2 Raw », orienté qualité maximale, et « Krea 2 Turbo », capable de produire une image en seulement 2 secondes. Le modèle est publié sous une licence personnalisée qui impose des conditions précises : les entreprises de plus de 50 utilisateurs doivent souscrire à une offre Enterprise payante, et tous les utilisateurs, quelle que soit leur taille, sont tenus de mettre en place des garde-fous techniques pour empêcher la génération de contenus illégaux, d'images intimes non consenties (NCII), de matériel pédopornographique (CSAM) ou de contenus diffamatoires. Au-delà de la vitesse, Krea met en avant une variété visuelle supérieure aux générateurs habituels, une meilleure fidélité aux prompts, et des capacités de personnalisation étendues, notamment la compatibilité avec les LoRA et les références de style. L'enjeu est de taille pour les entreprises qui intègrent déjà la génération d'images dans leurs workflows de production. Une critique récurrente dans l'industrie pointe la monotonie esthétique de l'imagerie IA, ce que les anglophones appellent désormais l'« AI slop » : des visuels interchangeables, sans personnalité, incapables de différencier une marque de ses concurrentes. Krea tente de répondre directement à ce problème en offrant un modèle ouvert qui permet aux équipes techniques d'affiner les sorties selon leur identité visuelle. La vitesse de Krea 2 Turbo le positionne également comme un outil viable pour les pipelines à fort débit : à 2 secondes par image, il devance des références comme Midjourney v8.1 en mode Turbo (3 à 6 secondes) ou FLUX.2 [klein] de Black Forest Labs (3,9 à 4,6 secondes selon la variante), et ne se retrouve dépassé que par des modèles très optimisés comme FLUX.1 [schnell] de Prodia (0,5 seconde) ou Z-Image Turbo sur Replicate et fal.ai (1,8 seconde). Ce lancement s'inscrit dans une dynamique plus large de démocratisation des modèles de génération d'images, où les acteurs open source cherchent à concurrencer directement des plateformes propriétaires comme Midjourney ou les solutions cloud de Microsoft (MAI Image 2 via Azure) et Google. En adoptant un modèle hybride, poids ouverts pour les petits utilisateurs, licence commerciale pour les grandes organisations, Krea suit une stratégie similaire à celle de Black Forest Labs avec la famille FLUX, tentant de capter simultanément la communauté des développeurs et les budgets des entreprises. La contrainte de safeguards techniques imposée à tous les utilisateurs reflète aussi une pression réglementaire croissante, notamment en Europe, sur la responsabilité des fournisseurs d'outils génératifs face aux contenus préjudiciables.

UELa licence imposant des garde-fous techniques contre les contenus illégaux s'aligne avec les obligations de l'AI Act européen, facilitant l'adoption de ce modèle ouvert dans les workflows d'entreprises soumises à la réglementation européenne.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic