Aller au contenu principal
Fini les compromis ? Nano Banana 2 et Pro débarquent sur Gemini API
CréationLe Big Data14h

Fini les compromis ? Nano Banana 2 et Pro débarquent sur Gemini API

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Google a rendu disponibles en accès général, le 28 mai 2026, deux nouveaux modèles de génération d'images sur sa Gemini API : Nano Banana 2 et Nano Banana Pro. L'écosystème Nano Banana, qui désigne les capacités natives de génération d'images intégrées à Gemini, compte désormais trois modèles distincts. Le premier, Nano Banana, s'appuie sur Gemini 2.5 Flash Image et privilégie la vitesse. Le deuxième, Nano Banana 2, repose sur Gemini 3.1 Flash Image et cible les usages à fort volume de requêtes. Le troisième, Nano Banana Pro, exploite Gemini 3.1 Pro Image et vise la création d'assets visuels professionnels. Tous fonctionnent de manière conversationnelle : un développeur peut générer une image, la modifier et l'affiner au fil des échanges textuels, sans quitter l'environnement de l'API.

Cette mise à disposition en production change concrètement la donne pour les équipes techniques. Jusqu'ici, les développeurs devaient souvent arbitrer entre vitesse et qualité selon l'outil disponible. Avec trois niveaux de performances accessibles depuis une même interface, ils peuvent désormais adapter le modèle au contexte : prototypage rapide, production massive ou création soignée. Nano Banana 2 intéresse particulièrement les plateformes e-commerce, les outils de contenu ou les applications créatives qui génèrent des volumes importants de visuels. Nano Banana Pro, lui, bénéficie d'un mécanisme de raisonnement avancé qui lui permet de mieux interpréter des consignes complexes et de restituer du texte plus fidèle à l'intérieur des images, un point critique pour les campagnes marketing ou les assets de marque.

Cette annonce s'inscrit dans une compétition intense sur le marché de la génération d'images par API, où Google affronte directement OpenAI avec DALL-E et son intégration dans GPT-4o, ainsi que Stability AI et Midjourney côté créatif. Google mise sur l'intégration native dans son écosystème Gemini comme avantage différenciant, évitant aux développeurs de multiplier les fournisseurs. Le passage en disponibilité générale signale que ces modèles sont désormais stables et prêts pour des environnements de production, ce qui accélère leur adoption dans des projets à grande échelle. La prochaine étape logique sera de voir si Google propose une tarification compétitive par rapport aux alternatives, et dans quelle mesure Nano Banana Pro peut réellement rivaliser avec les modèles spécialisés sur la fidélité créative.

Impact France/UE

Les développeurs et entreprises européennes peuvent désormais intégrer trois niveaux de génération d'images via une API unifiée Gemini, réduisant la dépendance à plusieurs fournisseurs distincts.

💬 Le point de vue du dev

Enfin trois niveaux distincts depuis une même API, sans jongler entre fournisseurs, c'est ce qu'on attendait côté infra. Flash pour le volume, Pro pour les assets soignés, et tout ça dans l'écosystème Gemini, ça va convaincre des équipes qui n'ont pas envie de gérer cinq clés API différentes. Le vrai test reste le prix, et si le Pro peut vraiment tenir face à Midjourney sur un brief de campagne sérieux.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio
1Le Big Data 

Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio

Google a lancé le 15 avril 2026 Gemini 3.1 Flash TTS, son nouveau modèle de synthèse vocale conçu pour donner aux créateurs un contrôle fin sur le rendu émotionnel des voix générées. La principale nouveauté réside dans l'introduction des balises audio, des commandes en langage naturel intégrées directement dans le texte pour piloter le rythme, l'intonation et le style vocal phrase par phrase. Concrètement, un développeur peut indiquer dans sa requête qu'un passage doit être prononcé avec "excitation" ou de manière "explicative", et le modèle adapte sa synthèse en conséquence. Le modèle prend en charge plus de 70 langues, dont 24 bénéficient d'une qualité dite premium, parmi lesquelles l'hindi, le japonais et l'allemand. Il est déjà intégré dans Google Vids, la Gemini API et Google AI Studio, et inclut le watermarking SynthID sur tous les outputs. Cette capacité à sculpter la voix par instructions textuelles représente un changement de paradigme pour les producteurs de contenu audio et les équipes de développement. Jusqu'ici, les modèles TTS généraient une voix uniforme, difficile à différencier selon le contexte ou le ton voulu. Avec Gemini 3.1 Flash TTS, les entreprises qui produisent des podcasts automatisés, des assistants vocaux, des vidéos pédagogiques ou des expériences de narration interactive peuvent adapter le rendu vocal sans post-production manuelle. La couverture multilingue avec maintien de la cohérence émotionnelle ouvre aussi la voie à des déploiements localisés à grande échelle, un enjeu crucial pour les acteurs globaux qui ne peuvent pas se permettre de perdre en expressivité lors du passage d'une langue à l'autre. Cette annonce s'inscrit dans une course intense entre les grands acteurs de l'IA générative pour dominer le segment de la voix. OpenAI a lancé ses propres capacités TTS via l'API et ses modèles de voix en temps réel, ElevenLabs a consolidé sa position sur le marché des créateurs, et Microsoft intègre des fonctions similaires dans Azure Cognitive Services. Google, avec DeepMind en soutien, mise sur l'intégration native dans son écosystème existant, Google Vids, AI Studio, pour accélérer l'adoption sans friction. Le fait que Gemini 3.1 Flash TTS soit directement accessible via la Gemini API suggère une stratégie orientée développeurs d'abord, avant un éventuel déploiement grand public. Les prochaines étapes probables incluent une extension des langues premium, un affinement des balises disponibles et une intégration dans NotebookLM ou d'autres outils de productivité Google déjà très utilisés.

UELes développeurs et producteurs de contenu européens peuvent intégrer dès maintenant des capacités TTS émotionnelles multilingues via la Gemini API, ouvrant la voie à des déploiements localisés à grande échelle sans post-production vocale manuelle.

CréationOpinion
1 source
Avec cette nouveauté, Nano Banana 2 comprend vos goûts mieux que vous-même
2Le Big Data 

Avec cette nouveauté, Nano Banana 2 comprend vos goûts mieux que vous-même

Google a annoncé le 16 avril 2026 le lancement de Personal Intelligence, une nouvelle fonctionnalité intégrée à Gemini, son générateur d'images propulsé par intelligence artificielle. Concrètement, cette mise à jour permet à Gemini de comprendre les préférences et les centres d'intérêt d'un utilisateur sans que celui-ci ait besoin de les détailler dans chaque prompt. L'outil se connecte aux services Google existants pour capter les habitudes, les goûts et le style propre à chaque compte. L'intégration clé repose sur Google Photos : les images personnelles de l'utilisateur, ses proches, ses animaux ou ses souvenirs, servent désormais de référence directe pour enrichir les créations générées. Quelques mots suffisent là où il fallait auparavant rédiger des descriptions minutieuses et multiplier les essais. L'impact est immédiat pour les utilisateurs réguliers de Gemini, qui perdaient jusqu'ici un temps considérable à expliquer leurs intentions créatives à l'outil. En déléguant une partie de ce travail à la machine, Google réduit la friction entre l'idée et le résultat. L'utilisateur peut se mettre en scène dans des styles variés, du dessin au fusain à la peinture numérique, avec un rendu ancré dans sa propre réalité visuelle plutôt que dans des généralités. Le contrôle reste entre ses mains : si une image ne convient pas, il peut corriger une instruction, changer de référence, et affiner le rendu sans repartir de zéro. L'outil affiche également les sources utilisées pour chaque génération, ce qui apporte une forme de transparence sur le processus. Cette évolution s'inscrit dans une tendance lourde de l'IA générative : personnaliser toujours davantage l'expérience en exploitant les données numériques de l'utilisateur. Google précise que les photos personnelles ne servent pas directement à entraîner ses modèles et que l'activation des connexions reste sous contrôle de l'utilisateur. Mais plus l'outil devient précis et contextuel, plus il repose sur une empreinte numérique intime, ce qui soulève des questions durables sur la vie privée et la dépendance aux écosystèmes propriétaires. La course à la personnalisation oppose désormais Google à des acteurs comme Adobe Firefly ou Midjourney, qui développent eux aussi des fonctionnalités d'adaptation au style personnel. Personal Intelligence représente cependant un avantage structurel pour Google, qui dispose déjà d'une masse de données utilisateur sans équivalent via Photos, Search ou Gmail.

UEL'exploitation de données personnelles intimes (photos, historique) par Gemini pour personnaliser les créations soulève des questions de conformité RGPD directement applicables aux utilisateurs français et européens.

CréationOutil
1 source
Guide complet des negative prompts sur ArtSpace AI
3Le Big Data 

Guide complet des negative prompts sur ArtSpace AI

ArtSpace AI, plateforme de génération d'images par intelligence artificielle, propose dans son interface une fonctionnalité distincte appelée "negative prompt", un champ textuel secondaire, séparé de la description principale, dans lequel l'utilisateur spécifie les éléments qu'il souhaite exclure du résultat visuel. Contrairement à d'autres outils comme Midjourney, ArtSpace AI affiche cet espace d'exclusion directement sous la boîte de dialogue principale, accessible en un clic via un onglet dédié. Le mécanisme repose sur une logique inversée propre aux modèles de diffusion : là où une invite positive oriente le calcul vers des correspondances sémantiques précises, les termes négatifs repoussent des concepts spécifiques hors du champ de génération, orientant ainsi la puissance de calcul uniquement vers les éléments jugés pertinents. L'intérêt pratique de cette fonctionnalité est direct et mesurable pour les créateurs produisant des visuels à vocation commerciale ou éditoriale. Les imperfections les plus fréquentes dans la génération d'images, mains déformées, visages asymétriques, textes flous, ombres irréalistes, filigranes fictifs ou bordures indésirables, sont bien plus efficacement corrigées par exclusion ciblée que par reformulation de l'invite positive. Le résultat est un fichier directement exploitable, sans retouche externe, ce qui représente un gain de temps significatif dans un flux de production professionnel. La composition gagne en cohérence, les espaces négatifs deviennent maîtrisés, et la direction artistique globale se raffine sans surcharger la description principale. La popularisation des negative prompts s'inscrit dans une évolution plus large de la maîtrise des outils de génération visuelle par IA. Au-delà de la simple rédaction d'une invite descriptive, les utilisateurs avancés, graphistes, directeurs artistiques, équipes marketing, ont progressivement compris que la qualité d'un rendu se joue autant sur les contraintes imposées que sur les éléments demandés. ArtSpace AI se positionne ainsi dans un marché de plus en plus compétitif où l'ergonomie du workflow créatif devient un argument de différenciation face à des concurrents comme Midjourney, Stable Diffusion ou Adobe Firefly. La séparation claire des deux champs textuels évite toute ambiguïté sémantique pour l'algorithme et fluidifie le travail des créateurs, un choix de conception qui reflète une maturité croissante des interfaces de génération d'images à destination des professionnels.

CréationOutil
1 source
Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants
4Le Big Data 

Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants

Google a présenté Gemini Omni le 19 mai 2026 lors de sa conférence annuelle Google I/O. Ce nouveau modèle d'intelligence artificielle permet de générer et modifier des vidéos à partir de simples instructions écrites en langage naturel. L'utilisateur peut demander un changement d'angle de caméra, ajuster l'éclairage d'une scène ou transformer entièrement un décor sans passer par un logiciel de montage traditionnel. Google décrit Gemini Omni comme un modèle capable de créer « n'importe quoi à partir de n'importe quelle source ». Le déploiement de la version Flash a débuté le jour même de l'annonce, d'abord pour les abonnés Google AI Plus, Pro et Ultra via l'application Gemini et Google Flow. Un accès gratuit dans YouTube Shorts et l'application YouTube Create doit suivre dans la semaine, et une ouverture via API pour les développeurs et entreprises est prévue dans les prochaines semaines. Ce qui distingue Gemini Omni des générateurs vidéo existants, c'est l'accent mis sur la cohérence et le réalisme physique, deux points notoirement difficiles pour les IA actuelles. Le modèle mémorise chaque instruction précédente pour éviter qu'un personnage change de visage entre deux plans ou qu'un décor se transforme de manière incohérente. Google affirme également que le système comprend mieux la physique des objets et les mouvements dans une scène, ce qui devrait produire des vidéos plus proches d'une production audiovisuelle classique que des artefacts expérimentaux. Pour les créateurs de contenu, les équipes marketing et les professionnels de la communication, cela représente un gain de temps considérable : là où il fallait maîtriser plusieurs logiciels, une conversation suffit désormais pour itérer sur une production vidéo. Google s'inscrit dans une course à la génération vidéo par IA qui s'est intensifiée depuis le lancement de Sora par OpenAI fin 2023, suivi de Runway, Kling et d'autres outils spécialisés. En intégrant Gemini Omni directement dans ses plateformes grand public, YouTube en tête, avec ses plus de 2,5 milliards d'utilisateurs actifs, Google parie sur la distribution comme avantage concurrentiel plutôt que sur la seule performance technique. L'intégration dans Google Flow, outil de production assistée par IA lancé plus tôt cette année, suggère une stratégie plus large visant à faire de Gemini le socle créatif de l'ensemble de l'écosystème Google. La prochaine étape sera de voir si les performances en conditions réelles sont à la hauteur des démonstrations, et si l'accès API permettra à des services tiers de construire de nouveaux usages autour du modèle.

UELes développeurs et entreprises européens pourront accéder via API à un générateur vidéo IA intégré nativement à YouTube et Google Flow, avec un déploiement grand public via YouTube Shorts prévu dans la semaine.

💬 La cohérence des personnages d'un plan à l'autre, c'était le talon d'Achille de tous ces outils. Gemini Omni semble avoir sérieusement bossé là-dessus, et si ça tient en conditions réelles, ça débloque des usages pro qui étaient encore impossibles il y a six mois. La vraie arme de Google, c'est pas la technique, c'est YouTube.

CréationActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour