Aller au contenu principal
Gemini 3.5 Flash veut réduire les coûts IA des entreprises
LLMsLe Big Data6sem· 2 min de lecture

Gemini 3.5 Flash veut réduire les coûts IA des entreprises

Source originale ↗·

Google a lancé Gemini 3.5 Flash lors de sa conférence I/O 2026, le 19 mai 2026, en le positionnant comme son modèle propriétaire le plus économique à ce jour. Le tarif annoncé est de 1,50 dollar par million de jetons, une réduction significative pensée pour les entreprises qui déploient des agents IA à grande échelle. En parallèle, Google a dévoilé plusieurs nouveaux produits : Gemini Spark, un agent personnel capable d'agir en arrière-plan dans Gmail, Docs, Sheets et Slides pour compiler des informations, organiser des événements ou mettre à jour des tableaux en temps réel ; Omni Flash ; et AntiGravity 2.0, une nouvelle version de sa plateforme multi-agents. Sundar Pichai, PDG de Google, a déclaré que certaines organisations ont déjà consommé leur budget annuel de jetons alors que l'année est à peine entamée, soulignant l'urgence du problème.

L'enjeu est directement financier pour les directions IT. À mesure que les agents IA s'intègrent dans les outils métiers, les volumes de jetons consommés explosent et les coûts dépassent les budgets prévus. Gemini 3.5 Flash cible précisément ces usages quotidiens à grande échelle, là où des économies de quelques centimes par million de jetons peuvent représenter des millions de dollars pour un grand groupe. L'intégration native avec Google Workspace est présentée comme un levier supplémentaire : en limitant le recours aux API externes, elle réduit mécaniquement la facture. Le modèle économique devient ainsi aussi déterminant que les performances techniques, notamment pour convaincre les entreprises de franchir le pas de l'industrialisation de l'IA au-delà des preuves de concept.

Cette offensive tarifaire de Google s'inscrit dans une dynamique de marché plus large. Anthropic a récemment baissé les tarifs de Claude Opus 4.6, et la montée en puissance des modèles open source comme Qwen d'Alibaba accentue la pression sur les grands acteurs. Les performances des modèles propriétaires commençant à converger, le prix s'impose comme un facteur différenciant majeur pour fidéliser les clients entreprises. Google cherche ainsi à tenir tête à OpenAI et Anthropic sur le segment de l'IA agentielle, un marché où la viabilité économique conditionne désormais l'adoption massive. La prochaine étape sera de voir si cette baisse tarifaire suffit à convaincre les grandes organisations de standardiser leurs workflows autour de l'écosystème Google, ou si la concurrence répondra rapidement avec des ajustements similaires.

Impact France/UE

Les entreprises européennes déployant des agents IA à grande échelle sur Google Workspace pourraient réduire significativement leurs coûts de jetons grâce à ce nouveau tarif.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an
1VentureBeat AI 

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Google a présenté mardi Gemini 3.5 Flash lors de sa conférence annuelle I/O, un nouveau modèle d'intelligence artificielle qui revendique une rupture avec l'un des compromis les plus tenaces du secteur : la capacité et la vitesse ne seraient plus antinomiques. Selon Sundar Pichai, PDG de Google, les entreprises traitant environ mille milliards de tokens par jour sur Google Cloud pourraient économiser plus d'un milliard de dollars par an en basculant 80 % de leurs charges de travail vers Flash et d'autres modèles frontier. Sur les benchmarks standards, Gemini 3.5 Flash dépasse Gemini 3.1 Pro, qui était encore positionné comme le modèle phare de l'entreprise il y a quatre à cinq mois : 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA, 83,6 % sur MCP Atlas et 84,2 % sur CharXiv Reasoning. Il génère des tokens quatre fois plus vite que les modèles frontier concurrents comparables, voire douze fois plus vite dans sa version optimisée disponible dès maintenant sur Antigravity, la plateforme de développement agentique de Google. Koray Kavukcuoglu, directeur technique de Google DeepMind, confirme : « Nous avons développé une version encore plus optimisée de Flash, non pas quatre fois, mais douze fois plus rapide, à qualité égale. » L'enjeu est considérable pour les entreprises qui ont massivement investi dans l'IA générative. Depuis trois ans, les DSI sont contraints de jongler entre des modèles puissants mais lents et coûteux pour les tâches complexes, et des modèles légers mais moins fiables pour les requêtes simples. Ce pilotage en portefeuille génère une ingénierie coûteuse, des expériences utilisateur inégales et, surtout, des budgets tokens qui s'épuisent à toute vitesse. Pichai l'a formulé sans détour lors d'un briefing presse lundi : « Vous avez probablement entendu des DSI dire que leurs entreprises ont déjà dépassé leur budget annuel de tokens, et on est seulement en mai. » Flash, à environ un tiers à la moitié du coût des modèles frontier actuels tout en atteignant selon Google 90 % de leurs performances, rendrait ce compromis obsolète pour la majorité des cas d'usage. Cette annonce s'inscrit dans une bataille d'efficience qui s'est intensifiée depuis que les entreprises ont commencé à déployer des agents IA en production à grande échelle. La course ne porte plus seulement sur l'intelligence brute des modèles, mais sur leur coût d'exploitation réel. Google fait face à une pression croissante d'Anthropic, d'OpenAI et de Meta, qui ont tous lancé des modèles intermédiaires visant le même créneau. Avec Flash, Google revendique la position unique de modèle occupant le quadrant supérieur droit de l'index intelligence/vitesse d'Artificial Analysis, sans concurrent direct à date. La disponibilité immédiate du modèle turbo dans Antigravity suggère que Google mise sur les workflows agentiques comme terrain de différenciation durable face à ses rivaux.

UELes entreprises européennes sur Google Cloud peuvent réduire significativement leurs budgets tokens en adoptant Flash pour leurs charges de travail agentiques, sans attendre de réglementation spécifique UE.

LLMsOpinion
1 source
Google intègre le contrôle d'écran directement dans Gemini 3.5 Flash
2The Decoder 

Google intègre le contrôle d'écran directement dans Gemini 3.5 Flash

Google a intégré nativement la fonctionnalité "Computer Use" directement dans Gemini 3.5 Flash, son modèle rapide disponible via l'API Gemini. Cette capacité permet au modèle de percevoir l'écran d'un ordinateur, d'un navigateur ou d'un appareil mobile, et d'en prendre le contrôle de façon autonome pour accomplir des tâches. Sur le benchmark de référence OSWorld, qui évalue la capacité des modèles à naviguer et interagir avec des interfaces graphiques réelles, Gemini 3.5 Flash obtient un score de 78,4, le plaçant au même niveau que GPT-5.5 d'OpenAI. Pour les développeurs, cette intégration ouvre la voie à des agents capables d'automatiser des workflows complexes sans infrastructure supplémentaire : tests logiciels, automatisation de tâches bureautiques, navigation web pilotée par l'IA. En inscrivant le contrôle d'ordinateur directement dans le modèle plutôt que comme une surcouche externe, Google réduit la friction technique et rend ces capacités accessibles à un plus grand nombre d'équipes, y compris celles sans expertise spécialisée en IA agentique. La fonctionnalité "Computer Use" a été popularisée en octobre 2024 par Anthropic avec Claude, avant qu'OpenAI ne propose des capacités similaires avec GPT-4o. Google entre maintenant dans cette course avec un avantage différenciant : l'intégration native dans un modèle déjà massivement adopté pour sa rapidité et son faible coût. L'enjeu est considérable, car la capacité à orchestrer des agents autonomes opérant des logiciels existants représente l'une des prochaines frontières économiques de l'IA générative, et les trois grands acteurs se disputent désormais ce segment à armes presque égales.

UELes développeurs et entreprises françaises et européennes peuvent intégrer des capacités d'automatisation agentique directement via l'API Gemini 3.5 Flash, sans infrastructure supplémentaire, abaissant la barrière technique à l'adoption des agents IA.

LLMsOpinion
1 source
Gemini 3.5 Flash intègre le contrôle de l’ordinateur en natif : voici ce que ça change
3Le Big Data 

Gemini 3.5 Flash intègre le contrôle de l’ordinateur en natif : voici ce que ça change

Google a annoncé le 24 juin 2026 l'intégration native du contrôle d'ordinateur directement dans Gemini 3.5 Flash, son modèle rapide et économique. Concrètement, le modèle peut désormais analyser une capture d'écran, identifier les éléments affichés, puis enchaîner des actions : cliquer sur un bouton, saisir du texte au clavier, faire défiler une page, ouvrir une application. Il fonctionne dans trois environnements : navigateur web, applications de bureau et applications mobiles. Sur le benchmark OSWorld-Verified, Gemini 3.5 Flash atteint un score de 78,4 %, ce qui le place devant plusieurs modèles concurrents selon les chiffres publiés par Google. Des partenaires comme Browserbase, Browser Use et UiPath ont salué l'équilibre entre rapidité, coût et fiabilité du système. Ce qui change en profondeur, c'est la consolidation des capacités au sein d'un seul modèle. Jusqu'ici, le contrôle d'ordinateur était réservé à un modèle distinct baptisé Gemini 2.5 Computer Use. Les développeurs devaient donc orchestrer plusieurs modèles selon les tâches : recherche, appels d'API, interaction avec les interfaces. Avec Gemini 3.5 Flash, tout cohabite dans une même plateforme, ce qui simplifie radicalement la construction d'agents autonomes. Un agent pourra désormais réserver un billet, parcourir des documents contractuels, exécuter des tests logiciels ou agréger des informations depuis plusieurs applications, sans changement de contexte ni surcharge d'infrastructure. Pour les équipes de développement, c'est une réduction significative de la complexité architecturale, et potentiellement une accélération du passage à des automatisations ambitieuses dans des secteurs comme l'administration, le juridique ou la qualité logicielle. Cette évolution s'inscrit dans une course industrielle autour des agents IA capables d'agir dans le monde réel, pas seulement de converser. OpenAI avec Operator, Anthropic avec Computer Use et Microsoft avec des intégrations dans Copilot avancent sur le même terrain. Google, en intégrant cette capacité à son modèle le plus déployé par les développeurs, cherche à imposer Gemini comme la plateforme d'agent de référence. La question de la sécurité reste centrale : un modèle qui manipule un ordinateur peut être détourné par des contenus malveillants. Google affirme avoir entraîné Gemini 3.5 Flash à résister aux attaques par injection de prompt, et propose aux entreprises deux garde-fous supplémentaires : une validation humaine obligatoire avant toute action sensible ou irréversible, et une interruption automatique en cas de détection d'injection indirecte. Ces protections réduisent le risque sans l'éliminer, et les conditions de déploiement responsable restent largement à définir à l'échelle de l'industrie.

UEL'intégration native du contrôle d'ordinateur dans un modèle grand public comme Gemini 3.5 Flash accélère la disponibilité d'agents IA autonomes pour les entreprises européennes, soulevant des questions de conformité avec l'AI Act pour les déploiements dans des secteurs sensibles comme l'administration ou le juridique.

💬 Ce qui change vraiment, c'est pas le contrôle d'ordinateur en lui-même (ça existait déjà dans Gemini 2.5 Computer Use), c'est que ça tient maintenant dans le modèle rapide et pas cher. Tu n'orchestres plus plusieurs modèles selon les tâches : tout cohabite au même endroit, ce qui rend enfin les agents autonomes viables pour des équipes sans budget infra démesuré. Reste à voir si les garde-fous contre l'injection de prompt tiennent vraiment quand c'est exposé en prod.

LLMsOpinion
1 source
Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code
4MarkTechPost 

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code

Google a dévoilé Gemini 3.5 Flash lors de sa conférence Google I/O en mai 2026, marquant le lancement de la première génération de modèles Gemini 3.5. Malgré son positionnement dans le tier "Flash", historiquement réservé aux modèles rapides et économiques, ce nouveau modèle surpasse Gemini 3.1 Pro sur les benchmarks exigeants. Il affiche 76,2 % sur Terminal-Bench 2.1 (performance en codage), 1 656 Elo sur GDPval-AA (tâches agentiques réelles), 83,6 % sur MCP Atlas (fiabilité dans l'utilisation d'outils) et 84,2 % sur CharXiv Reasoning (compréhension multimodale). Côté prix, Google propose 1,50 dollar par million de tokens en entrée, 9 dollars en sortie, et seulement 0,15 dollar pour les tokens mis en cache. Le modèle est quatre fois plus rapide sur les tokens de sortie que son prédécesseur, avec une fenêtre de contexte d'un million de tokens et une date de coupure de connaissance fixée à janvier 2026. Ce lancement est structurellement important parce qu'il efface la frontière entre vitesse et puissance : un modèle "Flash" bon marché dépasse désormais le modèle premium précédent. Pour les développeurs et les entreprises qui construisent des agents IA, cela réduit drastiquement le coût des workflows complexes. Google a simultanément lancé une API "Managed Agents" qui permet de déployer un agent complet en un seul appel API : l'agent raisonne, appelle des outils, exécute du code dans un conteneur Linux isolé, et maintient son état entre les appels successifs. Des partenaires comme Shopify utilisent déjà des sous-agents en parallèle pour améliorer les prévisions de croissance de leurs marchands, Macquarie Bank le teste pour analyser des documents de plus de 100 pages lors de l'embarquement client, Salesforce l'intègre dans Agentforce pour automatiser des tâches d'entreprise, et Databricks l'utilise pour la surveillance de données en temps réel avec diagnostic automatique. Ce modèle s'inscrit dans la stratégie "agent-first" de Google, matérialisée par la plateforme Antigravity. Antigravity 2.0 est une application desktop autonome capable d'orchestrer plusieurs agents en parallèle, avec des tâches planifiées et des intégrations couvrant Google AI Studio, Android et Firebase. Un CLI permet aux développeurs de créer des agents sans interface graphique, et un SDK ouvre un accès programmatique complet. La compétition sur le segment des modèles efficaces et agentiques s'intensifie : OpenAI, Anthropic et d'autres acteurs proposent des offres similaires, mais Google frappe fort en combinant performance de frontier, prix agressif et infrastructure d'exécution clé en main. Les prochains mois diront si Gemini 3.5 Flash s'impose comme la référence de facto pour les workflows agentiques en production.

UELes développeurs et entreprises européens peuvent adopter dès maintenant Gemini 3.5 Flash pour leurs workflows agentiques à des tarifs très agressifs, abaissant significativement le coût de construction d'agents IA en production en France et dans l'UE.

💬 Un modèle Flash qui surpasse le Pro précédent sur les benchmarks, ça change toute l'équation. Tu n'as plus à choisir entre vitesse et qualité, tu prends les deux pour 1,50 dollar le million de tokens en entrée. L'API Managed Agents m'intéresse autant que les perfs : déployer un agent complet en un seul appel, c'est exactement le plumbing que tout le monde réécrivait à la main depuis deux ans.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic