Aller au contenu principal
Google DeepMind présente un pointeur de souris IA propulsé par Gemini, capable de capturer le contexte visuel et sémantique autour du curseur
OutilsMarkTechPost6sem· 2 min de lecture

Google DeepMind présente un pointeur de souris IA propulsé par Gemini, capable de capturer le contexte visuel et sémantique autour du curseur

Source originale ↗·

Google DeepMind a présenté cette semaine un pointeur de souris dopé à l'intelligence artificielle, propulsé par Gemini, capable de comprendre non seulement où l'utilisateur pointe, mais aussi ce qu'il pointe et pourquoi c'est pertinent. Le système est encore expérimental, mais deux démonstrations sont d'ores et déjà accessibles dans Google AI Studio : l'une pour éditer une image, l'autre pour identifier des lieux sur une carte, toutes deux utilisables en pointant et en parlant à voix haute. Une intégration plus profonde, baptisée Magic Pointer, est en cours de déploiement dans Chrome, et une autre est prévue pour Googlebook, la nouvelle gamme d'ordinateurs portables Gemini de Google annoncée simultanément cette semaine.

Le problème que cherche à résoudre DeepMind est connu de quiconque a déjà essayé d'utiliser un assistant IA en pleine session de travail : les outils actuels vivent dans leur propre fenêtre, obligeant l'utilisateur à interrompre son flux pour décrire manuellement ce qu'il regardait, coller une question dans un chatbot, puis importer la réponse dans son document d'origine. Le pointeur IA brise ce cycle en transmettant au modèle un contexte visuel et sémantique en temps réel, dérivé de la position du curseur et de l'état de survol, sans que l'utilisateur ait à formuler ce contexte en texte. Concrètement, cela permet de pointer un tableau de statistiques et demander une version en camembert, de survoler une recette pour en doubler les ingrédients, ou de pointer un PDF pour en obtenir un résumé en points à coller directement dans un email.

Cette initiative s'inscrit dans une tendance plus large chez les grandes plateformes technologiques : rendre l'IA ambiante plutôt que cloisonnée dans une fenêtre de chat. Depuis l'émergence des grands modèles de langage grand public, la friction principale reste l'interface : les modèles sont puissants, mais les utilisateurs doivent sérialiser manuellement leur environnement en texte pour les actionner. DeepMind formalise quatre principes de conception pour y remédier, dont "maintenir le flux" (l'IA suit l'utilisateur là où il travaille, sans détour) et "montrer et dire" (le pointeur capte le contexte visuel, remplaçant les prompts détaillés par un simple geste). Microsoft avance en parallèle avec Copilot intégré à Windows, tandis qu'Apple mise sur des capacités similaires avec Apple Intelligence. Avec l'annonce simultanée des laptops Googlebook et le déploiement dans Chrome, Google positionne Gemini comme une couche système universelle, ce qui pourrait redéfinir profondément la manière dont des centaines de millions d'utilisateurs interagissent avec leur ordinateur au quotidien.

Impact France/UE

L'intégration d'une IA ambiante dans les navigateurs et systèmes d'exploitation pourrait modifier les pratiques numériques de millions d'utilisateurs européens, soulevant des questions sur la dépendance aux grandes plateformes et la conformité au RGPD.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

McDonald's teste un système de commande au drive propulsé par l'IA de Google
1AI News 

McDonald's teste un système de commande au drive propulsé par l'IA de Google

McDonald's teste depuis plusieurs semaines un nouveau système de commande vocale par intelligence artificielle dans ses restaurants drive-thru américains. Baptisé ArchIQ et surnommé "Archy", le dispositif a été dévoilé lors de la convention mondiale de la chaîne et est actuellement déployé dans cinq établissements aux États-Unis dont les adresses n'ont pas été communiquées. Développé en partenariat avec Google, le système accepte les commandes en anglais et en espagnol, gère les modifications de commande en temps réel et affiche le total avant de demander au client d'avancer. Selon le compte X McFranchisee, géré par un franchisé McDonald's, ArchIQ a déjà traité plus d'un million de transactions, avec environ 90 % des commandes traitées sans intervention humaine. Le système serait également capable de reconnaître les clients réguliers et de proposer leur commande habituelle, bien que McDonald's n'ait pas fourni de détails techniques sur ce mécanisme. En amont du déploiement, les restaurants américains reçoivent des unités Google Edge Cloud pour faire tourner l'infrastructure. L'enjeu est considérable pour une entreprise qui a enregistré 37 milliards de dollars de ventes à ses membres fidélité en 2025, soit une hausse de 20 %, avec près de 210 millions d'utilisateurs actifs sur 90 jours dans 70 marchés. ArchIQ s'inscrit dans le plan de croissance "McDonald's > NEXT", dont l'objectif est d'améliorer les opérations en restaurant et la rentabilité par unité. Le système ne se limite pas à la prise de commande: il surveille les équipements, alerte les managers en cas de panne de congélateur ou de goulot d'étranglement en cuisine, combinant outil de vente et support opérationnel. Le PDG Chris Kempczinski a reconnu dans une note interne que l'automatisation progressive du parcours client réduit les occasions d'interaction avec le personnel, ce qui, selon lui, élève le niveau d'exigence pour les moments où ce contact a lieu. Ce test intervient après l'échec d'une précédente expérimentation menée avec IBM dans plus de cent restaurants, abandonnée en 2024 suite à de nombreuses erreurs de commande, dont un cas devenu viral où le système aurait ajouté pour plus de 250 dollars de nuggets à la commande d'un client. McDonald's avait alors annoncé vouloir continuer d'explorer la technologie de commande vocale malgré cette déconvenue. La chaîne n'est pas seule sur ce terrain: Taco Bell et Wendy's ont également annoncé des systèmes similaires. Le trafic drive-thru est resté négatif tout au long de 2025, oscillant entre -5 % et -8 % selon QSR Magazine, ce qui renforce la pression sur les opérateurs pour optimiser leurs coûts. Si une partie des internautes ayant visionné les démonstrations d'ArchIQ dit préférer l'interaction avec un employé, McDonald's n'a pas encore communiqué de calendrier pour étendre le dispositif au-delà des cinq sites pilotes.

OutilsOutil
1 source
Google teste l'agent IA Remy pour Gemini, avec un accent mis sur le contrôle utilisateur
2AI News 

Google teste l'agent IA Remy pour Gemini, avec un accent mis sur le contrôle utilisateur

Google teste en interne un nouvel agent IA baptisé Remy, conçu pour s'intégrer à l'application Gemini et agir de manière autonome au nom des utilisateurs dans leurs tâches professionnelles et quotidiennes. L'information provient de Business Insider, qui affirme avoir consulté un document interne et échangé avec deux personnes au fait du projet. Selon ce document, Remy se présente comme un "agent personnel disponible 24h/24", capable de gérer des tâches complexes, d'apprendre les préférences de l'utilisateur et de se connecter aux services Google comme Gmail, Calendar, Docs, Drive, ainsi qu'à des plateformes tierces telles que GitHub, Spotify ou WhatsApp. Pour l'heure, le projet est en phase de "dog-fooding", c'est-à-dire testé exclusivement par des employés de Google. Aucune date de lancement public n'a été communiquée, et Google a refusé de commenter. Remy représente une évolution significative dans la stratégie de Google autour de Gemini, qui cherche à dépasser le simple chatbot pour devenir un assistant capable d'agir, et non plus seulement de répondre. Si Google propose déjà un "Agent Mode" dans Gemini, Remy serait selon les sources une version nettement plus avancée, intégrant un apprentissage des préférences utilisateur et une gestion de tâches multi-étapes. Cette orientation vers les agents autonomes soulève toutefois des questions de contrôle et de vie privée que Google semble anticiper : le Privacy Hub de Gemini permet déjà aux utilisateurs de consulter et supprimer l'historique d'activité, de gérer les données de personnalisation et de révoquer l'accès aux applications connectées. Les chercheurs de Google Research ont par ailleurs formalisé des principes pour les agents IA, insistant sur des pouvoirs strictement limités, des actions observables et l'application du principe de moindre privilège. La course aux agents autonomes s'est accélérée ces derniers mois dans l'ensemble du secteur. OpenAI a attiré l'attention début 2025 avec OpenClaw, un agent capable de répondre à des messages et de mener des recherches de façon autonome, dont le créateur a été recruté par Sam Altman en février. Le PDG de Google DeepMind, Demis Hassabis, a lui-même évoqué l'ambition de construire un "assistant numérique" de référence, sans préciser le calendrier. Remy s'inscrit dans cette dynamique où les grandes plateformes IA cherchent à passer du stade de l'assistant conversationnel à celui d'un véritable mandataire numérique. Les détails techniques restent flous: l'architecture de Remy, le modèle sous-jacent et le degré d'autonomie réel, notamment la question de savoir s'il peut agir sans confirmation explicite de l'utilisateur, n'ont pas été divulgués.

UELe déploiement futur de Remy serait soumis à l'AI Act européen, notamment aux exigences de transparence et de contrôle utilisateur imposées aux agents autonomes, que Google semble anticiper via son Privacy Hub.

OutilsOutil
1 source
Google Gemini : créer des plans de présentation en quelques secondes
3The Information AI 

Google Gemini : créer des plans de présentation en quelques secondes

Google a intégré dans Gemini une fonctionnalité qui permet aux dirigeants d'entreprise de générer en quelques secondes des plans de présentation structurés, là où les équipes consacraient auparavant des jours entiers à cette tâche. Le processus repose sur quatre étapes : rassembler ses idées brutes en cinq minutes de brainstorming libre, les charger dans un notebook Gemini aux côtés de documents existants (rapports trimestriels, guidelines de marque, présentations passées), formuler un prompt en langage naturel ou via Gemini Live (mode vocal sur mobile), puis itérer par conversation pour affiner le résultat. L'outil peut ensuite produire une décomposition slide par slide ou un tableau structuré prêt à transmettre à l'équipe, et même démarrer la présentation directement via la fonction Canvas. L'enjeu est significatif pour les organisations qui consacrent des ressources considérables à préparer des présentations stratégiques. Google illustre le cas d'un CEO de SaaS préparant un keynote pour le lancement d'un produit IA majeur devant des clients enterprise : au lieu de plusieurs réunions de cadrage, de longues chaînes d'e-mails et de cycles de relecture, un plan de haut niveau peut être posé en quelques minutes, donnant à l'équipe un fil directeur immédiat. La capacité de Gemini à ingérer de grands volumes de documents comme contexte d'un prompt permet de personnaliser la sortie bien au-delà d'un simple squelette générique. Pour les entreprises dont les présentations peuvent conditionner des décisions commerciales majeures, le gain en temps de coordination et en itérations internes est potentiellement très élevé. Cette annonce s'inscrit dans la bataille que se livrent Google, Microsoft et OpenAI pour ancrer leurs assistants IA dans les flux de travail professionnels quotidiens. Microsoft a poussé Copilot dans PowerPoint et Word ; OpenAI a développé des capacités de génération de documents structurés dans ChatGPT. Google répond en capitalisant sur l'intégration native de Gemini dans son écosystème Workspace, avec des notebooks qui servent de mémoire persistante entre les sessions. La fonctionnalité de prompt vocal via Gemini Live vise à réduire encore la friction, en permettant de dicter ses instructions comme on le ferait avec un collaborateur. La prochaine étape logique serait une intégration encore plus profonde avec Google Slides pour générer directement des decks complets, une direction que Google semble clairement préparer avec la fonction Canvas déjà disponible.

UELa fonctionnalité est intégrée à Google Workspace utilisé par des millions d'entreprises françaises et européennes, ce qui peut accélérer l'adoption de l'IA générative dans les processus de travail quotidiens.

💬 C'est pas la vitesse qui change le jeu, c'est le contexte. Pouvoir charger ses anciens decks, ses rapports Q, ses guidelines de marque, et obtenir un plan qui sonne vraiment comme ta boîte plutôt qu'un squelette sorti de nulle part, c'est ce que les autres n'ont pas encore bien résolu. Bon, faut que Canvas tienne ses promesses ensuite.

OutilsOutil
1 source
Réseaux autonomes : Nokia embarque les agents IA Gemini de Google Cloud
4Le Big Data 

Réseaux autonomes : Nokia embarque les agents IA Gemini de Google Cloud

Nokia a annoncé le 22 juin 2026 l'intégration des modèles Gemini de Google Cloud au sein de son Nokia Assurance Center, la plateforme logicielle utilisée par les opérateurs télécoms pour superviser et optimiser leurs infrastructures réseau. Le cœur du dispositif repose sur six agents IA spécialisés, chacun dédié à une fonction précise du cycle d'exploitation : coordination centrale, analyse des alarmes, identification des causes racines, interprétation des indicateurs de performance et recommandation d'actions correctives. Développés à partir de l'Agent Development Kit (ADK) de Google Cloud et de la plateforme Gemini Enterprise Agent, ces agents promettent des gains de 50 à 80 % sur les délais de traitement des incidents réseau. Le déploiement s'appuie sur des outils standards comme Kubernetes et Google Cloud Storage, sans nécessiter d'infrastructure propriétaire supplémentaire. L'enjeu est considérable pour les opérateurs télécoms, qui gèrent quotidiennement des milliers d'événements techniques et peinent à distinguer les incidents critiques du bruit de fond. En permettant aux agents d'analyser simultanément plusieurs sources d'information grâce aux capacités de raisonnement multimodal de Gemini, Nokia vise à faire basculer les opérateurs d'une logique de supervision réactive vers une gestion proactive : anticiper les pannes et les corriger avant qu'elles n'affectent les utilisateurs finaux. Ce passage à l'autonomie opérationnelle réduit mécaniquement les coûts d'exploitation, diminue la dépendance aux interventions humaines de routine et améliore la fiabilité des infrastructures, un argument de poids dans un secteur où chaque minute d'interruption de service représente des pertes directes pour les opérateurs. Cette annonce s'inscrit dans une relation déjà établie entre Nokia et Google Cloud, que les deux groupes approfondissent à mesure que l'IA agentique mûrit techniquement. Nokia, équipementier historique en difficulté de repositionnement face aux concurrents asiatiques, mise sur l'intelligence artificielle pour différencier sa suite logicielle et fidéliser une base de clients opérateurs soumis à une pression tarifaire croissante. Google Cloud, de son côté, cherche à imposer Gemini comme socle applicatif dans les environnements industriels critiques, un marché où AWS et Microsoft Azure sont également très actifs. L'architecture multi-agents représente une étape vers le concept de réseau autonome, un objectif de long terme de l'industrie télécoms où le réseau se configure, se répare et s'optimise seul. Les prochaines étapes devraient voir ces six agents s'étendre à d'autres modules de la plateforme Nokia, avec des annonces attendues lors des grands salons télécoms de la seconde moitié de 2026.

UENokia, équipementier finlandais, intègre des agents IA directement dans la plateforme utilisée par les opérateurs télécoms européens, avec un impact potentiel concret sur leurs coûts d'exploitation réseau et la fiabilité de leurs infrastructures.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic