Gemini 3.5 Flash intègre le contrôle de l’ordinateur en natif : voici ce que ça change
Google a annoncé le 24 juin 2026 l'intégration native du contrôle d'ordinateur directement dans Gemini 3.5 Flash, son modèle rapide et économique. Concrètement, le modèle peut désormais analyser une capture d'écran, identifier les éléments affichés, puis enchaîner des actions : cliquer sur un bouton, saisir du texte au clavier, faire défiler une page, ouvrir une application. Il fonctionne dans trois environnements : navigateur web, applications de bureau et applications mobiles. Sur le benchmark OSWorld-Verified, Gemini 3.5 Flash atteint un score de 78,4 %, ce qui le place devant plusieurs modèles concurrents selon les chiffres publiés par Google. Des partenaires comme Browserbase, Browser Use et UiPath ont salué l'équilibre entre rapidité, coût et fiabilité du système.
Ce qui change en profondeur, c'est la consolidation des capacités au sein d'un seul modèle. Jusqu'ici, le contrôle d'ordinateur était réservé à un modèle distinct baptisé Gemini 2.5 Computer Use. Les développeurs devaient donc orchestrer plusieurs modèles selon les tâches : recherche, appels d'API, interaction avec les interfaces. Avec Gemini 3.5 Flash, tout cohabite dans une même plateforme, ce qui simplifie radicalement la construction d'agents autonomes. Un agent pourra désormais réserver un billet, parcourir des documents contractuels, exécuter des tests logiciels ou agréger des informations depuis plusieurs applications, sans changement de contexte ni surcharge d'infrastructure. Pour les équipes de développement, c'est une réduction significative de la complexité architecturale, et potentiellement une accélération du passage à des automatisations ambitieuses dans des secteurs comme l'administration, le juridique ou la qualité logicielle.
Cette évolution s'inscrit dans une course industrielle autour des agents IA capables d'agir dans le monde réel, pas seulement de converser. OpenAI avec Operator, Anthropic avec Computer Use et Microsoft avec des intégrations dans Copilot avancent sur le même terrain. Google, en intégrant cette capacité à son modèle le plus déployé par les développeurs, cherche à imposer Gemini comme la plateforme d'agent de référence. La question de la sécurité reste centrale : un modèle qui manipule un ordinateur peut être détourné par des contenus malveillants. Google affirme avoir entraîné Gemini 3.5 Flash à résister aux attaques par injection de prompt, et propose aux entreprises deux garde-fous supplémentaires : une validation humaine obligatoire avant toute action sensible ou irréversible, et une interruption automatique en cas de détection d'injection indirecte. Ces protections réduisent le risque sans l'éliminer, et les conditions de déploiement responsable restent largement à définir à l'échelle de l'industrie.
L'intégration native du contrôle d'ordinateur dans un modèle grand public comme Gemini 3.5 Flash accélère la disponibilité d'agents IA autonomes pour les entreprises européennes, soulevant des questions de conformité avec l'AI Act pour les déploiements dans des secteurs sensibles comme l'administration ou le juridique.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




