Aller au contenu principal
Google I/O 2026 : Gemini 3.5 Flash, Omni (NanoBanana pour la vidéo), Spark (agents en arrière-plan) et Antigravity 2.0
LLMsLatent Space6sem· 2 min de lecture

Google I/O 2026 : Gemini 3.5 Flash, Omni (NanoBanana pour la vidéo), Spark (agents en arrière-plan) et Antigravity 2.0

Source originale ↗·
Google I/O 2026 : Gemini 3.5 Flash, Omni (NanoBanana pour la vidéo), Spark (agents en arrière-plan) et Antigravity 2.0
▶ Voir sur YouTube

Google a profité de sa conférence I/O 2026, tenue les 18 et 19 mai, pour annoncer une salve de nouveautés autour de sa famille Gemini. Le modèle phare de l'événement est Gemini 3.5 Flash, disponible immédiatement sur l'ensemble des surfaces Google, application Gemini, Search, API, AI Studio, Android Studio et environnements enterprise. Ce modèle affiche une fenêtre de contexte d'un million de tokens, une sortie maximale de 65 000 tokens, quatre niveaux de raisonnement configurables (minimal, faible, moyen, élevé) et une fonctionnalité dite de "thought preservation" qui maintient le fil de raisonnement entre les échanges. Selon les benchmarks indépendants d'Artificial Analysis, il obtient un score de 55 sur l'Intelligence Index (soit +9 par rapport à Gemini 3 Flash), dépasse 280 tokens par seconde en sortie, et est tarifé à 1,50 dollar par million de tokens en entrée et 9 dollars en sortie. Sur la plateforme Arena, il atteint la 9e place mondiale en arène textuelle et en code frontend, avec un score Elo de 1 507, en hausse de 70 points. Google annonce également Gemini Omni, une famille multimodale capable de traiter du texte, des images, de la vidéo et de l'audio pour générer et éditer de la vidéo dans Gemini, Flow, YouTube Shorts et, prochainement, via API. L'écosystème agent est complété par Antigravity 2.0 (desktop, CLI, SDK) et Gemini Spark, des agents fonctionnant en arrière-plan sur des machines virtuelles cloud.

Ces annonces interviennent alors que Google revendique une échelle sans précédent : 3,2 quadrillions de tokens traités par mois, soit une multiplication par sept en un an (contre 480 billions en 2025), et 900 millions d'utilisateurs mensuels actifs sur l'application Gemini, disponible dans plus de 230 pays et 70 langues. Pour les développeurs et les entreprises, Gemini 3.5 Flash se positionne comme un modèle d'élite pour les tâches agentiques et de codage à haute fréquence, avec une vitesse annoncée quatre fois supérieure aux modèles frontier comparables, et jusqu'à douze fois plus rapide dans l'environnement Antigravity. Sa supériorité sur Gemini 3.1 Pro sur des benchmarks clés comme Terminal-Bench 2.1 et GDPval-AA signifie que Google propose désormais un modèle "Flash" qui surclasse son propre "Pro" de génération précédente, brouillant les frontières traditionnelles entre vitesse et qualité.

Google I/O s'inscrit dans un cycle de compétition accélérée entre les grands laboratoires d'IA. OpenAI, Anthropic et Meta ont chacun publié des modèles majeurs au cours des dernières semaines, forçant Google à démontrer sa maîtrise sur le terrain multimodal et agentique. La présentation de lunettes connectées pilotées par Gemini Live rappelle les ambitions de long terme du groupe sur l'IA embarquée, une catégorie où Meta investit massivement avec Ray-Ban. Gemini 3.5 Pro, dont la sortie est prévue le mois prochain, devrait préciser jusqu'où Google entend pousser la frontière de ses modèles. La mise en production immédiate de 3.5 Flash, sans période de bêta, traduit une volonté de reprendre la main sur le rythme de déploiement face à des concurrents qui ont souvent devancé Google sur ce terrain.

Impact France/UE

Gemini 3.5 Flash est disponible immédiatement via API pour les développeurs et entreprises européennes, avec une tarification publique et une intégration dans Google Cloud, élargissant l'offre de modèles agentiques accessibles sur le marché européen.

💬 L'analyse de Mathieu

Pas de bêta, déploiement immédiat partout : Google change enfin de méthode. Ce qui m'intéresse vraiment, c'est le Flash qui surclasse maintenant le Pro de génération précédente sur les benchmarks de codage, ça veut dire que leur nomenclature vitesse/qualité ne tient plus. Les chiffres de scale (3,2 quadrillions de tokens par mois), c'est de la com' comme d'hab', mais sur le rythme de mise en prod, là c'est du concret.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code
1MarkTechPost 

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code

Google a dévoilé Gemini 3.5 Flash lors de sa conférence Google I/O en mai 2026, marquant le lancement de la première génération de modèles Gemini 3.5. Malgré son positionnement dans le tier "Flash", historiquement réservé aux modèles rapides et économiques, ce nouveau modèle surpasse Gemini 3.1 Pro sur les benchmarks exigeants. Il affiche 76,2 % sur Terminal-Bench 2.1 (performance en codage), 1 656 Elo sur GDPval-AA (tâches agentiques réelles), 83,6 % sur MCP Atlas (fiabilité dans l'utilisation d'outils) et 84,2 % sur CharXiv Reasoning (compréhension multimodale). Côté prix, Google propose 1,50 dollar par million de tokens en entrée, 9 dollars en sortie, et seulement 0,15 dollar pour les tokens mis en cache. Le modèle est quatre fois plus rapide sur les tokens de sortie que son prédécesseur, avec une fenêtre de contexte d'un million de tokens et une date de coupure de connaissance fixée à janvier 2026. Ce lancement est structurellement important parce qu'il efface la frontière entre vitesse et puissance : un modèle "Flash" bon marché dépasse désormais le modèle premium précédent. Pour les développeurs et les entreprises qui construisent des agents IA, cela réduit drastiquement le coût des workflows complexes. Google a simultanément lancé une API "Managed Agents" qui permet de déployer un agent complet en un seul appel API : l'agent raisonne, appelle des outils, exécute du code dans un conteneur Linux isolé, et maintient son état entre les appels successifs. Des partenaires comme Shopify utilisent déjà des sous-agents en parallèle pour améliorer les prévisions de croissance de leurs marchands, Macquarie Bank le teste pour analyser des documents de plus de 100 pages lors de l'embarquement client, Salesforce l'intègre dans Agentforce pour automatiser des tâches d'entreprise, et Databricks l'utilise pour la surveillance de données en temps réel avec diagnostic automatique. Ce modèle s'inscrit dans la stratégie "agent-first" de Google, matérialisée par la plateforme Antigravity. Antigravity 2.0 est une application desktop autonome capable d'orchestrer plusieurs agents en parallèle, avec des tâches planifiées et des intégrations couvrant Google AI Studio, Android et Firebase. Un CLI permet aux développeurs de créer des agents sans interface graphique, et un SDK ouvre un accès programmatique complet. La compétition sur le segment des modèles efficaces et agentiques s'intensifie : OpenAI, Anthropic et d'autres acteurs proposent des offres similaires, mais Google frappe fort en combinant performance de frontier, prix agressif et infrastructure d'exécution clé en main. Les prochains mois diront si Gemini 3.5 Flash s'impose comme la référence de facto pour les workflows agentiques en production.

UELes développeurs et entreprises européens peuvent adopter dès maintenant Gemini 3.5 Flash pour leurs workflows agentiques à des tarifs très agressifs, abaissant significativement le coût de construction d'agents IA en production en France et dans l'UE.

💬 Un modèle Flash qui surpasse le Pro précédent sur les benchmarks, ça change toute l'équation. Tu n'as plus à choisir entre vitesse et qualité, tu prends les deux pour 1,50 dollar le million de tokens en entrée. L'API Managed Agents m'intéresse autant que les perfs : déployer un agent complet en un seul appel, c'est exactement le plumbing que tout le monde réécrivait à la main depuis deux ans.

LLMsOpinion
1 source
Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA
2MarkTechPost 

Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA

Google a lancé Gemini 3.1 Flash Live en préversion pour les développeurs via la Gemini Live API dans Google AI Studio. Ce nouveau modèle se positionne comme le « modèle audio et vocal de la plus haute qualité » jamais produit par Google, capable de traiter en temps réel des flux multimodaux combinant voix, vidéo et appels d'outils. Concrètement, il accepte de l'audio PCM 16 bits à 16 kHz, renvoie de l'audio PCM natif sans passer par une synthèse vocale séparée, et peut ingérer des flux vidéo à environ une image par seconde. Sur le benchmark ComplexFuncBench Audio, qui mesure la capacité à enchaîner des appels de fonctions complexes à partir de la seule voix, le modèle atteint un score de 90,8 %. Il obtient également 36,1 % sur l'Audio MultiChallenge, un test mesurant la résistance aux interruptions et aux environnements bruités, thème central pour les cas d'usage réels. Ce lancement s'attaque à un problème structurel qui plombait jusque-là les assistants vocaux : la « pile d'attente », enchaînement séquentiel de la détection d'activité vocale, de la transcription, de la génération de texte et de la synthèse vocale. Gemini 3.1 Flash Live court-circuite cette chaîne en traitant l'acoustique directement, sans transcrire au préalable. Le modèle gère mieux la prosodie — ton, débit, hésitations — que son prédécesseur Gemini 2.5 Flash Native Audio, et discrimine la parole pertinente des bruits ambiants comme la circulation ou le brouhaha d'un bureau. L'interface de programmation repose sur un protocole WebSocket bidirectionnel et persistant, permettant la continuité de session, la synchronisation audio-transcription en un seul événement serveur, et le « barge-in » : l'utilisateur peut couper la parole à l'IA en plein milieu d'une phrase, et le modèle interrompt immédiatement sa génération pour traiter le nouvel énoncé. Une fenêtre de contexte de 128 000 tokens supporte la mémoire de session et les définitions d'outils. Ce modèle arrive dans un contexte de compétition intense entre Google, OpenAI et les startups spécialisées dans la voix temps réel. OpenAI avait ouvert la voie avec son mode vocal avancé dans GPT-4o, mais la fiabilité en environnements dégradés restait un talon d'Achille pour l'ensemble de l'industrie. Google mise ici sur la robustesse au bruit et sur l'inférence agentique — la capacité à raisonner et à exécuter des tâches complexes (retrouver des factures, envoyer des e-mails sous conditions) sans passer par un intermédiaire textuel. Pour les développeurs qui construisent des agents d'assistance client, des interfaces mobiles ou des outils professionnels à commande vocale, cette combinaison de faible latence, de multimodalité native et de raisonnement structuré représente un changement de catégorie. Les prochaines étapes attendues concernent la sortie en disponibilité générale et l'intégration dans l'écosystème Vertex AI pour les entreprises.

UELes développeurs européens peuvent accéder dès maintenant à l'API en préversion via Google AI Studio pour construire des agents vocaux, sans impact réglementaire ou institutionnel spécifique à la France/UE.

LLMsActu
1 source
Google I/O 2026 : Les rumeurs disaient vrai, Gemini 3.5 débarque et va tout balayer
3Le Big Data 

Google I/O 2026 : Les rumeurs disaient vrai, Gemini 3.5 débarque et va tout balayer

Lors de la conférence Google I/O du 19 mai 2026, le géant de Mountain View a officiellement lancé la série Gemini 3.5, avec en tête de cortège le modèle Flash 3.5, disponible immédiatement dans le monde entier. Présenté par le PDG Sundar Pichai comme le modèle le plus puissant jamais développé par Google, Gemini 3.5 Flash est désormais le modèle par défaut dans l'application Gemini, dans le mode IA de Google Search, ainsi que dans Google AI Studio et Android Studio via l'API Gemini. Sur les benchmarks publiés par l'entreprise, il atteint 76,2 % sur Terminal-Bench 2.1 contre 70,3 % pour Gemini 3.1 Pro, et 1656 points sur GDPval-AA Elo en tâches agentiques contre 1314 pour son prédécesseur. Google affirme également qu'il génère jusqu'à quatre fois plus de tokens par seconde que des modèles concurrents comparables, tout en coûtant deux à trois fois moins cher dans certains scénarios. Ce lancement redistribue les cartes dans la course aux modèles de langage. Un modèle dit "Flash", habituellement positionné sur la vitesse et l'économie plutôt que la performance brute, surpasse ici le modèle Pro de la génération précédente sur presque tous les tests significatifs, y compris le codage et les tâches agentiques. Google revendique même des performances proches de Claude Opus 4.7 Max d'Anthropic sur l'Artificial Analysis Intelligence Index, tout en étant environ douze fois plus rapide. Pour les développeurs et les entreprises qui construisent des applications sur des API LLM, ce rapport performance-coût représente un argument commercial direct : des capacités de niveau frontier sans la facture associée. Google a par ailleurs annoncé que Gemini 3.5 a été conçu dans le respect de son Frontier Safety Framework, avec des outils d'analyse interprétative capables d'examiner les mécanismes de raisonnement internes du modèle avant chaque réponse. Ce lancement s'inscrit dans une dynamique d'accélération tous azimuts, après que Google a progressivement regagné du terrain sur OpenAI et Anthropic depuis fin 2024. L'autre annonce majeure de l'I/O 2026 est Gemini Spark, un agent IA personnel conçu pour fonctionner en continu sur Google Cloud, natif dans l'écosystème Workspace, Gmail, Docs, Sheets, Slides, et activable simplement par e-mail. Sur mobile, la fonction Android Halo permettra de suivre en temps réel les actions de l'agent. Selon Josh Woodward, vice-président de Google Labs, Spark peut déjà rédiger automatiquement rapports et brouillons d'e-mails à partir de données issues de documents et feuilles de calcul, et certaines PME l'utiliseraient déjà en production. La convergence entre un modèle frontier accessible, une infrastructure cloud intégrée et un agent personnel persistant dessine la stratégie Google pour 2026 : verrouiller l'utilisateur dans un écosystème IA complet avant que la concurrence ne se consolide.

UEGemini 3.5 Flash est immédiatement disponible via l'API Gemini et Google AI Studio, offrant aux développeurs et entreprises européennes un modèle frontier moins cher et plus rapide susceptible d'accélérer l'adoption IA dans les PME qui s'appuient sur l'écosystème Google Workspace.

💬 Quand le Flash dépasse le Pro de la génération d'avant sur presque tous les benchmarks, c'est que la taxonomie des modèles est en train d'exploser, et c'est une bonne nouvelle pour les devs. Quatre fois plus rapide, deux à trois fois moins cher, performances frontier : difficile d'ignorer ça si tu construis quelque chose sur API. Mais l'annonce qui m'intéresse vraiment, c'est Spark : Google ne vend pas un modèle, il vend une serrure.

LLMsOpinion
1 source
Gemini 3.2 Flash dévoilé par erreur par Google ?
4Le Big Data 

Gemini 3.2 Flash dévoilé par erreur par Google ?

Google a involontairement dévoilé l'existence de Gemini 3.2 Flash le 5 mai 2026, plusieurs semaines avant la Google I/O prévue les 19 et 20 mai. Des captures d'écran partagées sur les réseaux sociaux montrent le modèle apparaître dans l'application officielle Gemini, sous la dénomination "Aide complète", aux côtés des modèles Gemini 3.1 Lite et Pro. Des données issues de Google AI Studio précisent les tarifs envisagés : 0,25 dollar par million de tokens en entrée et 2 dollars en sortie, avec une base de connaissances arrêtée à janvier 2026. Google n'a officialisé aucune annonce, mais les fuites ont rapidement circulé parmi les testeurs et les observateurs du secteur. Les premiers retours de ces testeurs sont frappants : Gemini 3.2 Flash rivalisait, selon eux, avec des modèles bien plus lourds sur des tâches créatives et techniques. Parmi les exemples cités, la génération d'animations ASCII représentant des paysages urbains détaillés en HTML, ou encore la production de fichiers SVG d'une précision inhabituelle pour un modèle de la gamme Flash. Certains utilisateurs le qualifient même de "quasiment équivalent" à Gemini 3.1 Pro sur plusieurs usages. Si ces performances se confirment à grande échelle, l'impact serait considérable : un modèle rapide et peu coûteux atteignant le niveau d'un modèle premium redistribue les équilibres économiques pour les développeurs et les entreprises qui arbitrent entre coût et puissance dans leurs applications IA. Cette fuite s'inscrit dans une stratégie d'accélération visible chez Google depuis plusieurs mois. La firme multiplie les versions de sa gamme Gemini à un rythme soutenu, cherchant à ne pas laisser OpenAI, Anthropic ou Meta prendre de l'avance sur les usages les plus demandés. L'un des axes prioritaires est l'amélioration des capacités "agentiques", c'est-à-dire la faculté d'un modèle à agir de façon autonome, à enchaîner des tâches complexes et à s'adapter au contexte utilisateur. La Google I/O constitue chaque année la vitrine de ces ambitions, et la version 3.2 Flash pourrait n'être qu'un avant-goût d'annonces plus larges sur l'écosystème Gemini. La question reste entière : la version finale confirmera-t-elle les performances observées dans ces tests préliminaires, ou Google réservera-t-il les capacités les plus spectaculaires à un modèle supérieur dévoilé en mai ?

UELes développeurs et entreprises européennes utilisant les APIs Gemini pourraient accéder à un modèle rapide et peu coûteux (0,25 $/M tokens entrée) aux performances proches du niveau premium, réduisant significativement les coûts d'intégration IA.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic