Aller au contenu principal
LLMsThe Decoder2h· 1 min de lecture

Google intègre le contrôle d'écran directement dans Gemini 3.5 Flash

Source originale ↗·

Google a intégré nativement la fonctionnalité "Computer Use" directement dans Gemini 3.5 Flash, son modèle rapide disponible via l'API Gemini. Cette capacité permet au modèle de percevoir l'écran d'un ordinateur, d'un navigateur ou d'un appareil mobile, et d'en prendre le contrôle de façon autonome pour accomplir des tâches. Sur le benchmark de référence OSWorld, qui évalue la capacité des modèles à naviguer et interagir avec des interfaces graphiques réelles, Gemini 3.5 Flash obtient un score de 78,4, le plaçant au même niveau que GPT-5.5 d'OpenAI.

Pour les développeurs, cette intégration ouvre la voie à des agents capables d'automatiser des workflows complexes sans infrastructure supplémentaire : tests logiciels, automatisation de tâches bureautiques, navigation web pilotée par l'IA. En inscrivant le contrôle d'ordinateur directement dans le modèle plutôt que comme une surcouche externe, Google réduit la friction technique et rend ces capacités accessibles à un plus grand nombre d'équipes, y compris celles sans expertise spécialisée en IA agentique.

La fonctionnalité "Computer Use" a été popularisée en octobre 2024 par Anthropic avec Claude, avant qu'OpenAI ne propose des capacités similaires avec GPT-4o. Google entre maintenant dans cette course avec un avantage différenciant : l'intégration native dans un modèle déjà massivement adopté pour sa rapidité et son faible coût. L'enjeu est considérable, car la capacité à orchestrer des agents autonomes opérant des logiciels existants représente l'une des prochaines frontières économiques de l'IA générative, et les trois grands acteurs se disputent désormais ce segment à armes presque égales.

Impact France/UE

Les développeurs et entreprises françaises et européennes peuvent intégrer des capacités d'automatisation agentique directement via l'API Gemini 3.5 Flash, sans infrastructure supplémentaire, abaissant la barrière technique à l'adoption des agents IA.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemini 3.5 Flash intègre le contrôle de l’ordinateur en natif : voici ce que ça change
1Le Big Data 

Gemini 3.5 Flash intègre le contrôle de l’ordinateur en natif : voici ce que ça change

Google a annoncé le 24 juin 2026 l'intégration native du contrôle d'ordinateur directement dans Gemini 3.5 Flash, son modèle rapide et économique. Concrètement, le modèle peut désormais analyser une capture d'écran, identifier les éléments affichés, puis enchaîner des actions : cliquer sur un bouton, saisir du texte au clavier, faire défiler une page, ouvrir une application. Il fonctionne dans trois environnements : navigateur web, applications de bureau et applications mobiles. Sur le benchmark OSWorld-Verified, Gemini 3.5 Flash atteint un score de 78,4 %, ce qui le place devant plusieurs modèles concurrents selon les chiffres publiés par Google. Des partenaires comme Browserbase, Browser Use et UiPath ont salué l'équilibre entre rapidité, coût et fiabilité du système. Ce qui change en profondeur, c'est la consolidation des capacités au sein d'un seul modèle. Jusqu'ici, le contrôle d'ordinateur était réservé à un modèle distinct baptisé Gemini 2.5 Computer Use. Les développeurs devaient donc orchestrer plusieurs modèles selon les tâches : recherche, appels d'API, interaction avec les interfaces. Avec Gemini 3.5 Flash, tout cohabite dans une même plateforme, ce qui simplifie radicalement la construction d'agents autonomes. Un agent pourra désormais réserver un billet, parcourir des documents contractuels, exécuter des tests logiciels ou agréger des informations depuis plusieurs applications, sans changement de contexte ni surcharge d'infrastructure. Pour les équipes de développement, c'est une réduction significative de la complexité architecturale, et potentiellement une accélération du passage à des automatisations ambitieuses dans des secteurs comme l'administration, le juridique ou la qualité logicielle. Cette évolution s'inscrit dans une course industrielle autour des agents IA capables d'agir dans le monde réel, pas seulement de converser. OpenAI avec Operator, Anthropic avec Computer Use et Microsoft avec des intégrations dans Copilot avancent sur le même terrain. Google, en intégrant cette capacité à son modèle le plus déployé par les développeurs, cherche à imposer Gemini comme la plateforme d'agent de référence. La question de la sécurité reste centrale : un modèle qui manipule un ordinateur peut être détourné par des contenus malveillants. Google affirme avoir entraîné Gemini 3.5 Flash à résister aux attaques par injection de prompt, et propose aux entreprises deux garde-fous supplémentaires : une validation humaine obligatoire avant toute action sensible ou irréversible, et une interruption automatique en cas de détection d'injection indirecte. Ces protections réduisent le risque sans l'éliminer, et les conditions de déploiement responsable restent largement à définir à l'échelle de l'industrie.

UEL'intégration native du contrôle d'ordinateur dans un modèle grand public comme Gemini 3.5 Flash accélère la disponibilité d'agents IA autonomes pour les entreprises européennes, soulevant des questions de conformité avec l'AI Act pour les déploiements dans des secteurs sensibles comme l'administration ou le juridique.

💬 Ce qui change vraiment, c'est pas le contrôle d'ordinateur en lui-même (ça existait déjà dans Gemini 2.5 Computer Use), c'est que ça tient maintenant dans le modèle rapide et pas cher. Tu n'orchestres plus plusieurs modèles selon les tâches : tout cohabite au même endroit, ce qui rend enfin les agents autonomes viables pour des équipes sans budget infra démesuré. Reste à voir si les garde-fous contre l'injection de prompt tiennent vraiment quand c'est exposé en prod.

LLMsOpinion
1 source
Gemini 3.5 Flash veut réduire les coûts IA des entreprises
2Le Big Data 

Gemini 3.5 Flash veut réduire les coûts IA des entreprises

Google a lancé Gemini 3.5 Flash lors de sa conférence I/O 2026, le 19 mai 2026, en le positionnant comme son modèle propriétaire le plus économique à ce jour. Le tarif annoncé est de 1,50 dollar par million de jetons, une réduction significative pensée pour les entreprises qui déploient des agents IA à grande échelle. En parallèle, Google a dévoilé plusieurs nouveaux produits : Gemini Spark, un agent personnel capable d'agir en arrière-plan dans Gmail, Docs, Sheets et Slides pour compiler des informations, organiser des événements ou mettre à jour des tableaux en temps réel ; Omni Flash ; et AntiGravity 2.0, une nouvelle version de sa plateforme multi-agents. Sundar Pichai, PDG de Google, a déclaré que certaines organisations ont déjà consommé leur budget annuel de jetons alors que l'année est à peine entamée, soulignant l'urgence du problème. L'enjeu est directement financier pour les directions IT. À mesure que les agents IA s'intègrent dans les outils métiers, les volumes de jetons consommés explosent et les coûts dépassent les budgets prévus. Gemini 3.5 Flash cible précisément ces usages quotidiens à grande échelle, là où des économies de quelques centimes par million de jetons peuvent représenter des millions de dollars pour un grand groupe. L'intégration native avec Google Workspace est présentée comme un levier supplémentaire : en limitant le recours aux API externes, elle réduit mécaniquement la facture. Le modèle économique devient ainsi aussi déterminant que les performances techniques, notamment pour convaincre les entreprises de franchir le pas de l'industrialisation de l'IA au-delà des preuves de concept. Cette offensive tarifaire de Google s'inscrit dans une dynamique de marché plus large. Anthropic a récemment baissé les tarifs de Claude Opus 4.6, et la montée en puissance des modèles open source comme Qwen d'Alibaba accentue la pression sur les grands acteurs. Les performances des modèles propriétaires commençant à converger, le prix s'impose comme un facteur différenciant majeur pour fidéliser les clients entreprises. Google cherche ainsi à tenir tête à OpenAI et Anthropic sur le segment de l'IA agentielle, un marché où la viabilité économique conditionne désormais l'adoption massive. La prochaine étape sera de voir si cette baisse tarifaire suffit à convaincre les grandes organisations de standardiser leurs workflows autour de l'écosystème Google, ou si la concurrence répondra rapidement avec des ajustements similaires.

UELes entreprises européennes déployant des agents IA à grande échelle sur Google Workspace pourraient réduire significativement leurs coûts de jetons grâce à ce nouveau tarif.

LLMsOpinion
1 source
Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an
3VentureBeat AI 

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Google a présenté mardi Gemini 3.5 Flash lors de sa conférence annuelle I/O, un nouveau modèle d'intelligence artificielle qui revendique une rupture avec l'un des compromis les plus tenaces du secteur : la capacité et la vitesse ne seraient plus antinomiques. Selon Sundar Pichai, PDG de Google, les entreprises traitant environ mille milliards de tokens par jour sur Google Cloud pourraient économiser plus d'un milliard de dollars par an en basculant 80 % de leurs charges de travail vers Flash et d'autres modèles frontier. Sur les benchmarks standards, Gemini 3.5 Flash dépasse Gemini 3.1 Pro, qui était encore positionné comme le modèle phare de l'entreprise il y a quatre à cinq mois : 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA, 83,6 % sur MCP Atlas et 84,2 % sur CharXiv Reasoning. Il génère des tokens quatre fois plus vite que les modèles frontier concurrents comparables, voire douze fois plus vite dans sa version optimisée disponible dès maintenant sur Antigravity, la plateforme de développement agentique de Google. Koray Kavukcuoglu, directeur technique de Google DeepMind, confirme : « Nous avons développé une version encore plus optimisée de Flash, non pas quatre fois, mais douze fois plus rapide, à qualité égale. » L'enjeu est considérable pour les entreprises qui ont massivement investi dans l'IA générative. Depuis trois ans, les DSI sont contraints de jongler entre des modèles puissants mais lents et coûteux pour les tâches complexes, et des modèles légers mais moins fiables pour les requêtes simples. Ce pilotage en portefeuille génère une ingénierie coûteuse, des expériences utilisateur inégales et, surtout, des budgets tokens qui s'épuisent à toute vitesse. Pichai l'a formulé sans détour lors d'un briefing presse lundi : « Vous avez probablement entendu des DSI dire que leurs entreprises ont déjà dépassé leur budget annuel de tokens, et on est seulement en mai. » Flash, à environ un tiers à la moitié du coût des modèles frontier actuels tout en atteignant selon Google 90 % de leurs performances, rendrait ce compromis obsolète pour la majorité des cas d'usage. Cette annonce s'inscrit dans une bataille d'efficience qui s'est intensifiée depuis que les entreprises ont commencé à déployer des agents IA en production à grande échelle. La course ne porte plus seulement sur l'intelligence brute des modèles, mais sur leur coût d'exploitation réel. Google fait face à une pression croissante d'Anthropic, d'OpenAI et de Meta, qui ont tous lancé des modèles intermédiaires visant le même créneau. Avec Flash, Google revendique la position unique de modèle occupant le quadrant supérieur droit de l'index intelligence/vitesse d'Artificial Analysis, sans concurrent direct à date. La disponibilité immédiate du modèle turbo dans Antigravity suggère que Google mise sur les workflows agentiques comme terrain de différenciation durable face à ses rivaux.

UELes entreprises européennes sur Google Cloud peuvent réduire significativement leurs budgets tokens en adoptant Flash pour leurs charges de travail agentiques, sans attendre de réglementation spécifique UE.

LLMsOpinion
1 source
Gemini 3.2 Flash dévoilé par erreur par Google ?
4Le Big Data 

Gemini 3.2 Flash dévoilé par erreur par Google ?

Google a involontairement dévoilé l'existence de Gemini 3.2 Flash le 5 mai 2026, plusieurs semaines avant la Google I/O prévue les 19 et 20 mai. Des captures d'écran partagées sur les réseaux sociaux montrent le modèle apparaître dans l'application officielle Gemini, sous la dénomination "Aide complète", aux côtés des modèles Gemini 3.1 Lite et Pro. Des données issues de Google AI Studio précisent les tarifs envisagés : 0,25 dollar par million de tokens en entrée et 2 dollars en sortie, avec une base de connaissances arrêtée à janvier 2026. Google n'a officialisé aucune annonce, mais les fuites ont rapidement circulé parmi les testeurs et les observateurs du secteur. Les premiers retours de ces testeurs sont frappants : Gemini 3.2 Flash rivalisait, selon eux, avec des modèles bien plus lourds sur des tâches créatives et techniques. Parmi les exemples cités, la génération d'animations ASCII représentant des paysages urbains détaillés en HTML, ou encore la production de fichiers SVG d'une précision inhabituelle pour un modèle de la gamme Flash. Certains utilisateurs le qualifient même de "quasiment équivalent" à Gemini 3.1 Pro sur plusieurs usages. Si ces performances se confirment à grande échelle, l'impact serait considérable : un modèle rapide et peu coûteux atteignant le niveau d'un modèle premium redistribue les équilibres économiques pour les développeurs et les entreprises qui arbitrent entre coût et puissance dans leurs applications IA. Cette fuite s'inscrit dans une stratégie d'accélération visible chez Google depuis plusieurs mois. La firme multiplie les versions de sa gamme Gemini à un rythme soutenu, cherchant à ne pas laisser OpenAI, Anthropic ou Meta prendre de l'avance sur les usages les plus demandés. L'un des axes prioritaires est l'amélioration des capacités "agentiques", c'est-à-dire la faculté d'un modèle à agir de façon autonome, à enchaîner des tâches complexes et à s'adapter au contexte utilisateur. La Google I/O constitue chaque année la vitrine de ces ambitions, et la version 3.2 Flash pourrait n'être qu'un avant-goût d'annonces plus larges sur l'écosystème Gemini. La question reste entière : la version finale confirmera-t-elle les performances observées dans ces tests préliminaires, ou Google réservera-t-il les capacités les plus spectaculaires à un modèle supérieur dévoilé en mai ?

UELes développeurs et entreprises européennes utilisant les APIs Gemini pourraient accéder à un modèle rapide et peu coûteux (0,25 $/M tokens entrée) aux performances proches du niveau premium, réduisant significativement les coûts d'intégration IA.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic