Aller au contenu principal

Dossier Gemini — page 2

582 articles · page 2 sur 12

Gemini, la famille de modèles de Google DeepMind : sorties Flash et Pro, intégration Apple/Siri, agents Robotics ER, capacités vocales temps réel.

Android 17 : Gemini ne vous lâchera plus d’une semelle grâce à cette nouveauté
51Le Big Data OutilsOutil

Android 17 : Gemini ne vous lâchera plus d’une semelle grâce à cette nouveauté

Google prépare une nouveauté significative pour Android 17 : l'assistant Gemini pourra désormais s'afficher sous la forme d'une bulle flottante persistante, visible en superposition par-dessus toutes les autres applications. La fonctionnalité, repérée le 18 juin 2026 dans la version bêta d'Android 17 par le site 9to5Google, s'inspire directement du système de bulles de discussion popularisé par Facebook Messenger. Concrètement, l'utilisateur engage une conversation avec Gemini, réduit la fenêtre sans la fermer, et retrouve instantanément le fil des échanges en touchant la bulle flottante, quelle que soit l'application ouverte à ce moment-là. Pour clore la session, un simple glissement de la bulle vers le bas de l'écran suffit. Ce changement simplifie radicalement le multitâche sur mobile. Jusqu'ici, basculer vers une autre application signifiait interrompre la conversation avec Gemini et devoir la relancer depuis zéro. La bulle flottante supprime cette friction : l'utilisateur peut consulter un article, répondre à un email ou naviguer sur le web pendant qu'une question est en cours de traitement, puis revenir à Gemini sans perte de contexte. Pour les professionnels qui utilisent l'assistant comme outil de productivité, rédaction, recherche rapide, synthèse de documents, l'impact est concret et immédiat. L'assistant cesse d'être une application parmi d'autres pour devenir une couche permanente accessible à tout moment du système d'exploitation. Cette évolution s'inscrit dans une tendance que tous les grands acteurs du secteur suivent simultanément. Meta a déjà intégré son IA dans Messenger, WhatsApp et Instagram, selon une logique de présence continue dans les espaces où les utilisateurs passent leur temps. Google adopte une stratégie différente mais complémentaire : plutôt que d'ancrer l'IA dans des applications spécifiques, il l'injecte directement dans la couche système d'Android, lui donnant accès à l'ensemble des contextes d'utilisation. Gemini bénéficie ainsi d'une accessibilité structurelle qu'aucune application tierce ne peut concurrencer. La fonctionnalité n'est pas encore disponible en version stable, mais sa présence dans la bêta d'Android 17 annonce un déploiement prochain. La question n'est plus de savoir si les assistants IA vont s'imposer comme présence permanente sur mobile, mais à quelle vitesse les utilisateurs adapteront leurs usages à cette disponibilité constante.

UELes utilisateurs Android en France et dans l'UE verront Gemini s'imposer comme couche permanente de leur OS mobile lors du déploiement d'Android 17 stable.

1 source
Siri AI vs Google Gemini : qui gagne en 2026 ?
52Le Big Data 

Siri AI vs Google Gemini : qui gagne en 2026 ?

En 2026, la rivalité entre les deux principaux assistants IA mobiles prend un tournant décisif. Apple, longtemps perçu comme en retard sur l'intelligence artificielle générative, accélère sa transition avec une version substantiellement rénovée de Siri, désormais capable de comprendre le contexte de plusieurs conversations simultanées, de résumer des échanges et d'effectuer des recherches approfondies à travers les applications natives de l'iPhone. De son côté, Google Gemini s'est imposé comme une plateforme multimodale de référence, capable d'interpréter simultanément du texte, des images, de l'audio et des séquences vidéo longues, tout en traitant des requêtes complexes nécessitant plusieurs étapes de raisonnement. La coopération stratégique annoncée entre Apple et Google, par laquelle Cupertino s'appuie partiellement sur l'infrastructure de son rival pour enrichir certaines fonctions de son écosystème, ajoute une dimension inédite à ce face-à-face. La divergence entre les deux approches est fondamentale et détermine concrètement l'expérience de centaines de millions d'utilisateurs. Siri mise sur une intégration profonde dans iOS, iPadOS et macOS : l'assistant peut accéder au contenu affiché à l'écran, aux messages récents et aux fichiers stockés localement pour personnaliser ses réponses, plutôt que de simplement produire une réponse exacte. Cette philosophie du traitement local et du cloud privé est pensée pour des utilisateurs attachés à la confidentialité. Gemini, lui, privilégie la puissance brute : il excelle dans l'analyse de documents volumineux, l'identification d'éléments visuels précis ou la réponse à des scénarios multi-étapes, en croisant plusieurs sources d'information en quelques secondes. Pour les professionnels qui travaillent sur des contenus variés, ou les utilisateurs ancrés dans l'écosystème Google Workspace, l'avantage penche nettement vers Gemini. Ce duel reflète une recomposition plus profonde du marché des smartphones, où l'IA est devenue le principal terrain de différenciation. Pendant des années, Apple a préféré la prudence, cantonnant Siri à des tâches limitées pour préserver sa réputation sur la vie privée. La montée en puissance de ChatGPT et de Gemini a forcé Cupertino à changer de vitesse, quitte à s'allier temporairement avec Google. Google, de son côté, joue sur deux tableaux : enrichir Android avec Gemini tout en fournissant une partie de sa technologie à Apple via des accords commerciaux. Les prochains mois seront déterminants : Apple doit démontrer que sa vision centrée sur la confidentialité peut rivaliser avec la puissance de calcul de Google à l'échelle mondiale, tandis que Google doit convaincre que son ouverture ne se fait pas au détriment de la transparence pour les utilisateurs.

UELes implications en matière de confidentialité des données (traitement local vs cloud) présentent une dimension pertinente pour les utilisateurs européens soumis au RGPD.

💬 Apple qui achète de la puissance IA à Google pour faire tourner Siri, c'est le vrai scoop de cet article. Ça fait deux ans qu'on attendait qu'Apple se réveille sur l'IA générative, mais se réveiller en sous-traitant à l'ennemi, c'est un choix qui mérite qu'on s'y arrête. La confidentialité locale, c'est bien, mais faut pas que ce soit juste un argument marketing pour cacher que les modèles maison ne suivent pas.

OutilsOutil
1 source
Google lance Gemini 3.5 Live Translate, un modèle audio voix-à-voix en temps réel couvrant plus de 70 langues
53MarkTechPost 

Google lance Gemini 3.5 Live Translate, un modèle audio voix-à-voix en temps réel couvrant plus de 70 langues

Google a lancé Gemini 3.5 Live Translate, un nouveau modèle audio capable de traduire la parole en temps réel dans plus de 70 langues. Disponible sous l'identifiant gemini-3.5-live-translate-preview, il fonctionne en mode speech-to-speech : de l'audio parlé entre, de l'audio traduit sort, avec une latence de quelques secondes seulement. Contrairement aux systèmes classiques qui attendent la fin d'une phrase pour commencer à traduire, ce modèle traite le flux audio en continu, au fil de la parole. Il préserve l'intonation, le rythme et la hauteur de voix du locuteur dans la version traduite. Le déploiement s'effectue sur trois surfaces simultanément : les développeurs y accèdent via une préversion publique dans la Gemini Live API et Google AI Studio, les entreprises via une préversion privée dans Google Meet à partir de ce mois-ci, et le grand public via l'application Google Traduction sur Android et iOS. Ce modèle représente une rupture technique significative pour tous les secteurs qui dépendent de la communication multilingue en direct. Lors d'appels professionnels, de réunions internationales, de cours en ligne ou de diffusions live, la barrière de la langue peut être levée sans infrastructure dédiée ni interprète humain. Des plateformes comme Agora, LiveKit, Pipecat et Fishjam intègrent déjà la Live API, ce qui réduit considérablement le travail d'intégration pour les développeurs. L'exemple concret le plus parlant vient de Grab, le géant asiatique du transport à la demande : la société teste activement le modèle pour les échanges entre chauffeurs et passagers au moment de la prise en charge, sachant que ses utilisateurs passent plus de 10 millions d'appels vocaux. Cette annonce s'inscrit dans la stratégie de Google visant à imposer sa suite Gemini comme infrastructure de référence pour l'IA temps réel. Techniquement, le modèle ne fonctionne qu'en entrée audio, sans prise en charge du texte, sans appel d'outils ni instructions système, ce qui le distingue radicalement des agents conversationnels classiques. La configuration s'effectue via un bloc translationConfig dans la Gemini Live API, avec un paramètre targetLanguageCode au format BCP-47 et une option echoTargetLanguage pour gérer les cas où le locuteur parle déjà la langue cible. Les formats audio sont fixes : entrée en PCM 16 bits à 16 kHz, sortie à 24 kHz. Ce choix de spécialisation radicale, au détriment de la flexibilité, témoigne d'une priorité claire donnée à la latence et à la fiabilité, deux critères décisifs pour les usages professionnels et grand public en conditions réelles.

UELa prise en charge de plus de 70 langues dont les principales langues européennes permet aux entreprises du marché unique d'intégrer la traduction temps réel dans Google Meet et via API sans infrastructure dédiée, réduisant les barrières linguistiques dans les communications professionnelles transfrontalières.

LLMsOpinion
1 source
Gemini 3.5 et Antigravity arrivent dans Google NotebookLM
54Ars Technica AI 

Gemini 3.5 et Antigravity arrivent dans Google NotebookLM

Google a annoncé une mise à jour majeure de NotebookLM, son outil d'analyse de documents propulsé par l'IA, en le faisant basculer vers Gemini 3.5 Flash, le modèle présenté lors du Google I/O 2025. Cette nouvelle version s'accompagne d'une prise en charge élargie des types de fichiers, d'une intégration web simplifiée pour ajouter des sources en ligne, et du support intégré d'Antigravity, un framework interne de Google. Selon l'entreprise, les tests comparatifs menés entre l'ancienne version basée sur Gemini 3.1 et la nouvelle donnent à NotebookLM un taux de victoire moyen de 65 % sur cinq dimensions d'évaluation clés : précision et qualité, support multilingue, analyse de grands documents, création de documents, et recherche avancée. Cette mise à jour compte pour les entreprises qui utilisent NotebookLM pour traiter de gros volumes de documents : Gemini 3.5 Flash promet des gains de vitesse significatifs et une réduction des coûts liés aux tokens, tout en maintenant une qualité de sortie comparable ou supérieure à la génération précédente. Pour les professionnels qui s'appuient sur l'outil pour synthétiser des rapports, analyser des contrats ou préparer de la documentation, les améliorations sur le multilingue et l'analyse de longs documents sont particulièrement concrètes. NotebookLM a été lancé en 2023, au tout début de l'explosion des outils d'IA générative, à une époque où Google multipliait les expérimentations sans nécessairement les pérenniser. Le fait que le produit soit non seulement maintenu mais régulièrement enrichi témoigne de son adoption réelle auprès des utilisateurs. Le déploiement de Gemini 3.5 Flash au-delà des API pour développeurs vers des produits grand public comme NotebookLM illustre la stratégie de Google : amortir les coûts de ses modèles les plus récents en les diffusant rapidement dans l'ensemble de son écosystème, face à une concurrence de plus en plus serrée de la part d'OpenAI, Anthropic et Microsoft.

UELes améliorations du support multilingue de NotebookLM bénéficient directement aux utilisateurs francophones et européens qui analysent des documents dans leur langue native.

OutilsOutil
1 source
Google Research intègre un RAG à base d'agents dans Gemini Enterprise pour les requêtes multi-étapes
55MarkTechPost 

Google Research intègre un RAG à base d'agents dans Gemini Enterprise pour les requêtes multi-étapes

L'équipe Google Research a présenté le 5 juin 2026 un nouveau cadre de récupération augmentée par agents, intégré directement à la plateforme Gemini Enterprise Agent. Cette architecture, désormais disponible en préversion publique sous le nom Cross-Corpus Retrieval, s'attaque à une limite bien connue des systèmes de recherche d'entreprise : l'incapacité à enchaîner plusieurs étapes de raisonnement sur des sources de données distinctes. Concrètement, là où un système RAG classique échoue face à une requête du type "Quelles sont les spécifications du serveur utilisé dans le Projet X ?" (parce qu'il trouve un identifiant mais ne sait pas aller chercher les specs dans une deuxième base), le nouveau système orchestre une série d'agents spécialisés. Un Orchestrateur délègue la tâche, un Agent Planificateur identifie les sources pertinentes, un Agent Réécriture de Requêtes décompose la question en sous-requêtes précises, et un Agent de Diffusion envoie ces requêtes en parallèle. Sur le benchmark FramesQA, un corpus de 824 questions et 2 676 documents PDF, le système affiche un gain de précision factuelle allant jusqu'à 34 % par rapport au RAG standard, avec de meilleures performances également sur des jeux de données propriétaires internes à Google. Ce qui distingue fondamentalement cette architecture de ses concurrentes, c'est la présence d'un Agent de Contexte Suffisant, pièce centrale du dispositif. Plutôt que de générer une réponse dès que le premier cycle de recherche se termine, cet agent inspecte les résultats, compare un brouillon intermédiaire aux extraits récupérés, et produit un journal détaillé des lacunes identifiées, avec des raisons et des feedbacks explicites. Si des informations manquent, le cycle repart : la requête est reformulée, de nouvelles sources sont explorées. Ce mécanisme d'itération évite deux défauts symétriques : la réponse incomplète présentée comme définitive, et la capitulation prématurée du modèle face à un contexte insuffisant. Pour une question médicale portant à la fois sur les médicaments de sortie, les restrictions alimentaires et les allergies d'un patient, le système ne s'arrête pas à deux éléments sur trois, il continue jusqu'à ce que les trois soient vérifiés. Google positionne cette avancée dans un contexte de concurrence intense sur les agents d'entreprise, un marché où Microsoft, Salesforce et plusieurs startups spécialisées investissent massivement. Le problème des requêtes multi-sources, dit "multi-hop", est depuis plusieurs années l'un des obstacles majeurs à l'adoption des LLM en environnement professionnel réel, où les données sont fragmentées entre bases de connaissances, systèmes CRM, dossiers PDF et notes cliniques. En intégrant cette capacité directement dans Gemini Enterprise Agent Platform plutôt que de la proposer comme une bibliothèque tierce, Google cherche à ancrer ses modèles au coeur des infrastructures de données des grandes organisations, tout en améliorant la fiabilité des réponses là où elle est la plus critique.

UELes entreprises européennes utilisant Gemini Enterprise peuvent accéder en préversion à cette architecture multi-corpus, susceptible d'améliorer l'adoption des LLM dans des secteurs à données fragmentées comme la santé ou la finance.

💬 Le truc intéressant, c'est l'agent de contexte suffisant : il sait ce qu'il lui manque, relance la recherche, et ne s'arrête pas avant d'avoir les trois éléments sur trois. C'est exactement ce qui casse les RAG classiques en prod, pas le retrieval en lui-même. Que Google l'intègre directement dans la plateforme plutôt qu'en lib tierce, ça dit tout sur leur stratégie d'ancrage infrastructure.

OutilsOutil
1 source
Simplifier les enquêtes de satisfaction des employés avec l'application Google Gemini
56The Information AI 

Simplifier les enquêtes de satisfaction des employés avec l'application Google Gemini

Les équipes RH des grandes entreprises passent parfois des semaines à construire leurs enquêtes de satisfaction interne, puis des semaines supplémentaires à dépouiller manuellement les résultats. Google propose désormais un guide pratique pour intégrer Gemini dans ce processus en quatre étapes : conception des questions, révision avant diffusion, nettoyage automatisé des données brutes, puis analyse des tendances. Concrètement, un responsable RH peut soumettre à Gemini un simple prompt, "génère une liste de questions pour notre enquête d'engagement à l'échelle de l'entreprise", et obtenir en quelques secondes un premier brouillon exploitable, qu'il peut affiner en dialoguant avec l'outil. Le système accepte également l'import de sondages passés pour en reproduire le ton et identifier les priorités déjà établies. Une fois les réponses collectées, Gemini peut nettoyer un tableur en une seule instruction : remplacer les noms manquants par "Anonyme", harmoniser les labels géographiques, supprimer les lignes incomplètes, et exporter un fichier propre prêt à l'analyse. L'enjeu est de réduire drastiquement le délai entre la collecte du feedback et la prise de décision concrète. Dans les cycles traditionnels, le nettoyage et l'analyse des données représentent une part disproportionnée du temps total, au détriment de l'action. En automatisant les tâches répétitives, reformatage, standardisation, détection de tendances dans les verbatims, Gemini permet aux équipes RH de se concentrer sur l'interprétation et les décisions managériales. Pour les organisations de taille importante, où une enquête annuelle peut générer des milliers de réponses libres difficiles à traiter, ce gain de temps n'est pas marginal : il détermine souvent si les insights arrivent à temps pour influencer les cycles budgétaires ou les réorganisations en cours. Ce guide s'inscrit dans la stratégie de Google visant à imposer Gemini comme assistant de productivité dans les environnements professionnels, en concurrence directe avec Microsoft Copilot, désormais intégré à la suite Microsoft 365. La bataille se joue précisément sur ce terrain des usages RH et opérationnels, où les gains de temps sont mesurables et les arguments commerciaux faciles à défendre auprès des directions. Google prend soin de préciser que Gemini ne remplace pas l'expertise humaine, le concept de "human-in-the-loop" est explicitement mentionné, ce qui reflète aussi une posture défensive face aux critiques sur l'automatisation excessive des processus sensibles. Les prochaines étapes probables incluent une intégration plus profonde avec Google Workspace Forms et Sheets, pour que l'ensemble du cycle enquête se déroule sans quitter l'écosystème Google.

OutilsOutil
1 source
Google Gemini : créer des plans de présentation en quelques secondes
57The Information AI 

Google Gemini : créer des plans de présentation en quelques secondes

Google a intégré dans Gemini une fonctionnalité qui permet aux dirigeants d'entreprise de générer en quelques secondes des plans de présentation structurés, là où les équipes consacraient auparavant des jours entiers à cette tâche. Le processus repose sur quatre étapes : rassembler ses idées brutes en cinq minutes de brainstorming libre, les charger dans un notebook Gemini aux côtés de documents existants (rapports trimestriels, guidelines de marque, présentations passées), formuler un prompt en langage naturel ou via Gemini Live (mode vocal sur mobile), puis itérer par conversation pour affiner le résultat. L'outil peut ensuite produire une décomposition slide par slide ou un tableau structuré prêt à transmettre à l'équipe, et même démarrer la présentation directement via la fonction Canvas. L'enjeu est significatif pour les organisations qui consacrent des ressources considérables à préparer des présentations stratégiques. Google illustre le cas d'un CEO de SaaS préparant un keynote pour le lancement d'un produit IA majeur devant des clients enterprise : au lieu de plusieurs réunions de cadrage, de longues chaînes d'e-mails et de cycles de relecture, un plan de haut niveau peut être posé en quelques minutes, donnant à l'équipe un fil directeur immédiat. La capacité de Gemini à ingérer de grands volumes de documents comme contexte d'un prompt permet de personnaliser la sortie bien au-delà d'un simple squelette générique. Pour les entreprises dont les présentations peuvent conditionner des décisions commerciales majeures, le gain en temps de coordination et en itérations internes est potentiellement très élevé. Cette annonce s'inscrit dans la bataille que se livrent Google, Microsoft et OpenAI pour ancrer leurs assistants IA dans les flux de travail professionnels quotidiens. Microsoft a poussé Copilot dans PowerPoint et Word ; OpenAI a développé des capacités de génération de documents structurés dans ChatGPT. Google répond en capitalisant sur l'intégration native de Gemini dans son écosystème Workspace, avec des notebooks qui servent de mémoire persistante entre les sessions. La fonctionnalité de prompt vocal via Gemini Live vise à réduire encore la friction, en permettant de dicter ses instructions comme on le ferait avec un collaborateur. La prochaine étape logique serait une intégration encore plus profonde avec Google Slides pour générer directement des decks complets, une direction que Google semble clairement préparer avec la fonction Canvas déjà disponible.

UELa fonctionnalité est intégrée à Google Workspace utilisé par des millions d'entreprises françaises et européennes, ce qui peut accélérer l'adoption de l'IA générative dans les processus de travail quotidiens.

💬 C'est pas la vitesse qui change le jeu, c'est le contexte. Pouvoir charger ses anciens decks, ses rapports Q, ses guidelines de marque, et obtenir un plan qui sonne vraiment comme ta boîte plutôt qu'un squelette sorti de nulle part, c'est ce que les autres n'ont pas encore bien résolu. Bon, faut que Canvas tienne ses promesses ensuite.

OutilsOutil
1 source
Android Auto : Gemini prend le contrôle de votre voiture intelligemment
58Le Big Data 

Android Auto : Gemini prend le contrôle de votre voiture intelligemment

Google intègre Gemini, son modèle d'intelligence artificielle générative, directement dans Android Auto, la plateforme embarquée qui équipe des dizaines de millions de véhicules dans le monde. L'annonce a été faite par la firme de Mountain View dans le cadre de sa stratégie d'extension de l'IA à l'ensemble de son écosystème matériel et logiciel. Concrètement, Gemini remplace l'Assistant Google classique au volant et promet de traiter les commandes vocales de façon bien plus naturelle : demander d'envoyer un message, lancer un itinéraire ou trouver une station-service ne nécessite plus de formuler une phrase figée et précise. Le système comprend désormais le contexte, anticipe certains besoins, et peut par exemple proposer automatiquement un trajet si un rendez-vous figure dans l'agenda, ou suggérer un itinéraire alternatif en cas d'embouteillage avant même que l'automobiliste ne pose la question. L'intégration s'accompagne également d'une refonte visuelle : nouveaux widgets, cartes enrichies, interface repensée dans la continuité d'Android sur smartphone. L'enjeu est direct pour des millions d'automobilistes qui avaient progressivement renoncé aux assistants vocaux embarqués, trop souvent sources d'incompréhensions et de frustrations. Si Gemini tient ses promesses, l'interaction avec le véhicule devient un véritable gain de temps et de sécurité, en réduisant la nécessité de manipuler un écran ou un téléphone en conduite. Pour Google, l'impact est tout aussi stratégique : Android Auto est présent sur la quasi-totalité des constructeurs automobiles mondiaux, ce qui fait de la voiture un point d'entrée massif pour ancrer Gemini dans les habitudes quotidiennes. La refonte de l'interface vise par ailleurs à unifier l'expérience utilisateur entre smartphone, montre connectée et voiture, renforçant l'adhérence à l'écosystème Google. Cette évolution s'inscrit dans une tendance plus large qui voit les grands modèles de langage quitter les interfaces textuelles pour coloniser l'environnement physique. Après les moteurs de recherche, les smartphones et les lunettes connectées, la voiture s'impose comme le prochain terrain d'expansion de l'IA ambiante. Google n'est pas seul sur ce segment : Apple CarPlay évolue dans la même direction avec Siri, et plusieurs constructeurs comme BMW ou Mercedes développent leurs propres assistants IA embarqués. La question qui se pose désormais est celle de l'équilibre entre utilité réelle et saturation de l'interface : si certaines fonctionnalités proactives semblent genuinement pertinentes, l'accumulation de widgets et de recommandations à l'écran pourrait paradoxalement augmenter la charge cognitive du conducteur. Les prochains mois de déploiement diront si Gemini parvient à s'imposer comme un copilote discret et fiable, ou s'il reproduit les travers des assistants qui l'ont précédé.

UEAndroid Auto étant présent sur des millions de véhicules vendus en Europe, dont des marques européennes comme BMW et Mercedes, les automobilistes français et européens seront directement concernés par cette intégration de Gemini dans leur quotidien de conduite.

OutilsOutil
1 source
Gemini 3.5 Flash pourrait être assez rapide pour que l'IA générative devienne vraiment utile
59Ars Technica AI 

Gemini 3.5 Flash pourrait être assez rapide pour que l'IA générative devienne vraiment utile

Google a présenté Gemini 3.5 Flash lors de sa conférence I/O 2026, avec un déploiement immédiat sur une large gamme de produits maison. Le modèle succède aux branches 3.0 et 3.1 publiées au cours de l'année écoulée, et Google affirme une fois de plus que sa nouvelle version Flash surpasse le modèle Pro de la génération précédente. Tulsee Doshi, directrice senior de la gestion produit pour Gemini, a précisé que les innovations de Gemini 3.5 Flash sont intégrées dans de multiples produits Google, et que ce lancement n'est qu'un début. Ce qui distingue ce modèle de ses prédécesseurs, selon Google, c'est l'équilibre inédit qu'il atteint entre puissance et efficacité. Gemini 3.5 Flash offrirait un niveau d'intelligence comparable aux meilleurs modèles du marché tout en étant suffisamment économe pour rendre viables les tâches agentiques complexes à grande échelle. Concrètement, cela signifie que des workflows automatisés impliquant plusieurs étapes, de nombreux appels au modèle et un traitement intensif pourraient désormais s'exécuter à un coût et une vitesse acceptables pour un déploiement en production. C'est précisément ce qui avait freiné l'adoption massive des agents IA jusqu'ici. Depuis un an, Google suit une cadence soutenue de mises à jour alternant entre modèles Flash et Pro, chaque nouvelle version Flash étant présentée comme plus performante que le Pro précédent. Cette progression rapide reflète une compétition acharnée avec OpenAI, Anthropic et Meta, tous engagés dans une course à l'efficacité pour rendre l'IA générative économiquement viable à l'échelle industrielle. Le fait que Google intègre Gemini 3.5 Flash directement dans ses produits grand public, plutôt que de le réserver à l'API, suggère une confiance accrue dans la maturité du modèle et une volonté de différencier ses services face à des concurrents qui misent sur des intégrations similaires.

UELes développeurs et entreprises européennes utilisant l'API Gemini bénéficieront de coûts réduits pour les workflows agentiques complexes, sans impact réglementaire ou institutionnel direct.

LLMsOpinion
1 source
YouTube : voici comment Gemini vous aidera bientôt à trouver les meilleures vidéos
60Frandroid 

YouTube : voici comment Gemini vous aidera bientôt à trouver les meilleures vidéos

YouTube a annoncé lors de la Google I/O 2025 l'intégration de Gemini, le modèle d'intelligence artificielle de Google, directement dans son moteur de recherche. Deux nouvelles fonctionnalités sont en cours de déploiement : la première améliore la découverte de vidéos grâce à une recherche conversationnelle alimentée par l'IA, la seconde vise à assister les créateurs dans la production de contenu. Concrètement, les utilisateurs pourront poser des questions en langage naturel pour trouver des vidéos correspondant précisément à leurs besoins, au-delà des simples mots-clés. L'enjeu est considérable pour YouTube, qui reste le deuxième moteur de recherche mondial avec plus de 2,5 milliards d'utilisateurs actifs par mois. La recherche sémantique pilotée par Gemini permettrait de comprendre l'intention derrière une requête, par exemple trouver « une recette rapide végétalienne pour débutants » plutôt qu'une correspondance exacte de termes. Pour les créateurs, l'assistance à la production pourrait réduire la barrière technique et accélérer la cadence de publication. Ces annonces s'inscrivent dans la stratégie globale de Google visant à injecter Gemini dans l'ensemble de son écosystème, Search, Gmail, Docs, Maps et désormais YouTube. La plateforme vidéo fait face à une concurrence croissante de TikTok et des outils de génération vidéo par IA comme Sora d'OpenAI ou Veo de Google lui-même. En rendant la recherche plus intuitive et la création plus accessible, YouTube cherche à consolider sa position dominante à un moment où le format vidéo court et l'IA générative redessinent les usages.

UELes millions d'utilisateurs et créateurs de contenu européens bénéficieront d'une recherche vidéo plus intuitive sur YouTube, sans impact réglementaire ou institutionnel spécifique à la France ou l'UE.

OutilsOutil
1 source
Gemini Omni : le modèle IA multimodal de Google
61VentureBeat AI 

Gemini Omni : le modèle IA multimodal de Google

Google a officiellement dévoilé Gemini Omni lors de sa conférence annuelle I/O à Mountain View, en Californie, bien que le modèle ait déjà été repéré par des utilisateurs avertis plusieurs semaines auparavant. Il s'agit du premier modèle nativement multimodal de Google, capable d'accepter en entrée n'importe quelle combinaison de texte, d'images, d'audio et de vidéo, et de produire des résultats dans ces mêmes formats depuis un seul et même système. Le premier modèle de la famille, Gemini Omni Flash, est accessible dès aujourd'hui pour les abonnés individuels à partir de 20 dollars par mois via le plan "AI Plus", sur le site Gemini, les applications mobiles, la suite d'édition vidéo Flow et YouTube Shorts. Une API destinée aux entreprises est annoncée, mais n'est pas encore disponible. Google n'a publié aucun benchmark officiel pour l'instant. L'enjeu principal de Gemini Omni est d'effacer la frontière entre les différents outils génératifs spécialisés, génération d'images, vidéo, audio, texte, en les fusionnant dans un seul modèle de fondation. Concrètement, cela signifie que le modèle raisonne à travers les modalités en un seul passage, ce qui se traduit par des éditions plus cohérentes, moins d'artefacts de pipeline et une surface API bien plus simple pour les développeurs. Pour les équipes créatives en entreprise, notamment celles qui produisent des visuels techniques, des supports marketing, des formations ou des contenus commerciaux, ce type de modèle unifié représente un gain de productivité significatif. L'absence d'API professionnelle à ce stade retarde toutefois toute intégration à grande échelle dans les systèmes d'entreprise. Ce lancement s'inscrit dans une tendance initiée par OpenAI en mai 2024 avec GPT-4o, premier modèle "omni" nativement multimodal du secteur, capable de traiter texte, code, images et audio, mais sans génération vidéo. Google construit Gemini Omni sur les bases de son modèle de génération d'images Nano Banana, sorti il y a environ un an. L'une des différences notables avec GPT-4o réside dans le paradigme d'interaction : Gemini Omni mise sur l'édition vidéo conversationnelle, où chaque instruction s'appuie sur la précédente pour faire évoluer le contenu de manière cohérente au fil des échanges. Google insiste également sur la restitution améliorée des lois physiques, gravité, dynamique des fluides, énergie cinétique, un détail technique qui distingue un rendu crédible d'un simple artefact visuel. La disponibilité via API pour les entreprises, et les premiers benchmarks indépendants, seront les prochains indicateurs déterminants pour évaluer la maturité réelle du modèle.

UELes entreprises européennes produisant des contenus multimodaux (marketing, formation, vidéo) pourraient bénéficier d'une plateforme unifiée, mais l'absence d'API professionnelle et de benchmarks indépendants retarde toute évaluation sérieuse d'adoption.

LLMsOpinion
1 source
Aïe ! Gemini Intelligence sera limité à quelques smartphones, le vôtre sera-t-il compatible ?
62Le Big Data 

Aïe ! Gemini Intelligence sera limité à quelques smartphones, le vôtre sera-t-il compatible ?

Google a officiellement annoncé Gemini Intelligence, sa nouvelle suite de fonctionnalités IA pour smartphones Android, mais la compatibilité s'avère bien plus restrictive que prévu. Pour accéder à ces outils, deux conditions techniques cumulatives sont exigées : au minimum 12 Go de RAM, et la prise en charge d'AI Core ainsi que de Gemini Nano v3, le modèle d'IA fonctionnant en local sur l'appareil. Selon des informations extraites par le leaker AssembleDebug de la documentation Android officielle, seule une poignée de modèles est aujourd'hui listée comme compatible : les futurs Pixel 10, Pixel 10 Pro et Pixel 10 Pro Fold, les Galaxy S26 de Samsung, les OnePlus 15 et 15R, le Honor Magic 8 Pro, plusieurs modèles Oppo (Find X9, certains Reno récents), les Vivo X200 et X300, le Realme GT 7T, ainsi que des modèles Motorola Signature et iQOO 15. Parmi les grands absents : les Pixel 9, sortis en 2024 et encore largement commercialisés. L'impact est concret et immédiat pour des millions d'utilisateurs Android ayant acheté un appareil récent en croyant investir dans un téléphone "IA-ready". Gemini Intelligence promet pourtant des fonctions substantielles : automatisation de tâches, personnalisation renforcée de l'expérience utilisateur, assistant nettement plus capable au quotidien. Se retrouver exclu de ces fonctionnalités quelques mois seulement après l'achat d'un flagship crée un sentiment légitime d'obsolescence programmée. Pour l'industrie, la décision de Google envoie un signal fort : l'IA embarquée devient un critère de segmentation haut de gamme, au même titre que les capteurs photo ou l'autonomie, forçant les constructeurs à intégrer des puces plus performantes dès la conception. Cette restriction s'inscrit dans une tendance de fond qui divise le monde Android entre une élite matérielle capable de faire tourner des modèles en local, et le reste du parc. Google justifie ce choix par les exigences de ressources du traitement on-device, qui permet de faire fonctionner l'IA sans dépendre du cloud. Mais la décision contraste avec le positionnement historique d'Android comme écosystème ouvert et accessible face à l'écosystème fermé d'Apple. La liste de compatibilité pourrait s'élargir si Google étend le support de Gemini Nano v3 à davantage de puces, comme il l'a parfois fait avec des fonctionnalités Pixel Features. Ou au contraire, Gemini Intelligence pourrait rester un argument marketing premium, renforçant la pression sur les utilisateurs pour qu'ils renouvellent plus vite leurs appareils. La réponse de Samsung, dont les Galaxy S26 figurent dans la liste, sera particulièrement scrutée pour mesurer si cet accès préférentiel s'accompagne d'un accord commercial plus large avec Google.

UELes millions d'utilisateurs européens ayant récemment acheté des appareils Android haut de gamme comme les Pixel 9 risquent d'être exclus de Gemini Intelligence, une situation susceptible d'alimenter les débats sur l'obsolescence programmée dans le cadre du droit européen à la durabilité des produits numériques.

💬 Le Pixel 9, sorti y'a même pas un an, pas compatible. Google est en train de faire avec l'IA ce qu'Apple fait depuis toujours avec iOS, segmenter par le matériel pour forcer la main au renouvellement, sauf que ça contraste un peu fort avec le discours "Android c'est ouvert et accessible". Reste à voir si le droit européen sur la durabilité numérique va leur coûter quelque chose, ou juste leur coûter un communiqué.

OutilsOpinion
1 source
Gemini Intelligence : 7 choses que votre Android va (enfin) faire à votre place
63Le Big Data 

Gemini Intelligence : 7 choses que votre Android va (enfin) faire à votre place

Google a officiellement présenté Gemini Intelligence le 12 mai 2026 lors de l'Android Show, l'édition I/O de sa conférence annuelle. Annoncé par le PDG Sundar Pichai, ce système transforme Android en ce que Google appelle un "système d'intelligence" proactif, réservé dans un premier temps à ses appareils les plus avancés. Concrètement, Gemini Intelligence regroupe plusieurs fonctionnalités distinctes : l'automatisation de tâches multi-étapes entre applications (trouver un programme dans Gmail, ajouter les livres requis dans un panier, réserver un VTC), une analyse visuelle permettant à l'IA de "voir" l'écran ou de traiter une photo pour déclencher une action sur une app tierce comme Expedia, une intégration dans Chrome prévue fin juin pour résumer des articles et comparer des contenus web, une fonction Chrome Auto Browse capable de remplir des formulaires de réservation de manière autonome, et un système d'Autofill intelligent baptisé Personal Intelligence qui croise les données de plusieurs applications connectées pour pré-remplir les formulaires en un geste. Une fonctionnalité nommée Rambler permet également de convertir des notes vocales en texte structuré et soigné. L'enjeu central est le passage de l'assistant réactif à l'agent autonome : l'IA n'attend plus les instructions pas à pas, elle prend en charge une intention globale et orchestre les applications nécessaires pour l'accomplir. Pour les utilisateurs, cela représente une réduction concrète du temps passé sur des tâches répétitives et cognitives légères, réservations, formulaires, recherches multi-sources, qui fragmentent l'attention au quotidien. Pour Google, c'est une réponse directe à Apple Intelligence et aux assistants IA intégrés que Microsoft déploie dans Windows, dans une course au contrôle du "layer" d'intelligence posé au-dessus du système d'exploitation. La promesse de confidentialité des données, traitées localement ou sous contrôle explicite de l'utilisateur, est présentée comme un différenciateur face aux craintes liées aux agents ayant accès aux données personnelles. Cette annonce s'inscrit dans une accélération générale des systèmes d'agents IA en 2025-2026, après des années de promesses non tenues sur les assistants vocaux. Google avait déjà expérimenté des fonctionnalités similaires avec Duplex, qui réservait des restaurants par téléphone dès 2018, mais la puissance des LLM récents rend ces capacités généralisables à pratiquement n'importe quel contexte. La bataille se joue désormais sur l'intégration profonde dans l'OS et dans le navigateur : Chrome Auto Browse, en automatisant la navigation web, ouvre une brèche dans le modèle publicitaire traditionnel basé sur les clics humains, ce qui pourrait à terme redessiner l'économie du web. Les premières fonctionnalités sont attendues cet été, sans date précise communiquée pour l'ensemble du déploiement.

UELes fonctionnalités d'accès croisé aux données personnelles entre applications soulèvent des questions de conformité avec le RGPD, notamment concernant la transparence du consentement et les limites effectives du traitement local des données utilisateurs sur les appareils Android en Europe.

OutilsOutil
1 source
Google lance Gemini Intelligence, le nouveau cerveau de votre smartphone Android
64Le Big Data 

Google lance Gemini Intelligence, le nouveau cerveau de votre smartphone Android

Lors de l'Android Show I/O Edition du 12 mai 2026, Google a dévoilé Gemini Intelligence, une nouvelle suite de fonctionnalités d'automatisation profondément intégrée dans Android. Le déploiement commencera progressivement cet été sur deux appareils phares : le Samsung Galaxy S26 et le Google Pixel 10. D'ici fin 2026, Google prévoit d'étendre Gemini Intelligence à l'ensemble de son écosystème, couvrant les montres sous Wear OS, les voitures compatibles Android Auto, les lunettes connectées et certains ordinateurs portables. Parmi les fonctions annoncées figurent l'automatisation de tâches inter-applicatives, une nouvelle génération de saisie vocale dans Gboard baptisée "Rambler", la création de widgets à la demande via une fonction "Create my Widget", et une interface repensée sous Material 3 Expressive avec des animations fluides et des effets de transparence. Ce que Google introduit ici va bien au-delà d'un assistant vocal amélioré : Gemini Intelligence agit comme un orchestrateur capable de naviguer entre plusieurs applications pour accomplir une tâche complète. Un utilisateur pourra demander à l'IA de gérer sa liste de courses, et celle-ci constituera automatiquement un panier chez un commerçant partenaire, sans intervention manuelle. De même, une simple photo de paysage pourra déclencher une recherche d'excursion directement sur Expedia, partenaire cité par Google. La fonction "Rambler" représente également un bond qualitatif pour la dictée vocale : elle gère les hésitations, les corrections à la volée et peut basculer d'une langue à l'autre au sein d'un même message, ce qui répond à un usage réel pour les locuteurs multilingues. Le widget généré à la demande, lui, matérialise la réponse de l'IA sous forme interactive et persistante sur l'écran d'accueil, transformant une requête ponctuelle en outil réutilisable. Cette annonce s'inscrit dans une compétition frontale entre Google et Apple, qui déploie de son côté Apple Intelligence sur ses appareils récents. Google doit convaincre que son modèle Gemini, intégré nativement dans Android, offre une expérience plus fluide et plus puissante que les solutions concurrentes. En réservant le lancement aux Galaxy S26 et Pixel 10, Google opte pour une stratégie de montée en gamme progressive, en liant l'accès aux fonctions les plus avancées au matériel haut de gamme, une logique déjà éprouvée par Apple. Les partenariats applicatifs annoncés, notamment avec Expedia, suggèrent que Google construit un écosystème commercial autour de Gemini Intelligence, où les plateformes partenaires pourront capter des intentions d'achat directement depuis l'IA. La question qui se posera rapidement sera celle de la vie privée : une IA capable d'agir entre applications et de lire le contexte d'une photo soulève des interrogations sur les données traitées et leur destination.

UELe déploiement prévu fin 2026 sur l'ensemble des appareils Android touchera les millions d'utilisateurs européens, soulevant des questions RGPD sur l'accès inter-applicatif aux données personnelles par une IA agissant en leur nom.

OutilsOutil
1 source
Google DeepMind présente un pointeur de souris IA propulsé par Gemini, capable de capturer le contexte visuel et sémantique autour du curseur
65MarkTechPost 

Google DeepMind présente un pointeur de souris IA propulsé par Gemini, capable de capturer le contexte visuel et sémantique autour du curseur

Google DeepMind a présenté cette semaine un pointeur de souris dopé à l'intelligence artificielle, propulsé par Gemini, capable de comprendre non seulement où l'utilisateur pointe, mais aussi ce qu'il pointe et pourquoi c'est pertinent. Le système est encore expérimental, mais deux démonstrations sont d'ores et déjà accessibles dans Google AI Studio : l'une pour éditer une image, l'autre pour identifier des lieux sur une carte, toutes deux utilisables en pointant et en parlant à voix haute. Une intégration plus profonde, baptisée Magic Pointer, est en cours de déploiement dans Chrome, et une autre est prévue pour Googlebook, la nouvelle gamme d'ordinateurs portables Gemini de Google annoncée simultanément cette semaine. Le problème que cherche à résoudre DeepMind est connu de quiconque a déjà essayé d'utiliser un assistant IA en pleine session de travail : les outils actuels vivent dans leur propre fenêtre, obligeant l'utilisateur à interrompre son flux pour décrire manuellement ce qu'il regardait, coller une question dans un chatbot, puis importer la réponse dans son document d'origine. Le pointeur IA brise ce cycle en transmettant au modèle un contexte visuel et sémantique en temps réel, dérivé de la position du curseur et de l'état de survol, sans que l'utilisateur ait à formuler ce contexte en texte. Concrètement, cela permet de pointer un tableau de statistiques et demander une version en camembert, de survoler une recette pour en doubler les ingrédients, ou de pointer un PDF pour en obtenir un résumé en points à coller directement dans un email. Cette initiative s'inscrit dans une tendance plus large chez les grandes plateformes technologiques : rendre l'IA ambiante plutôt que cloisonnée dans une fenêtre de chat. Depuis l'émergence des grands modèles de langage grand public, la friction principale reste l'interface : les modèles sont puissants, mais les utilisateurs doivent sérialiser manuellement leur environnement en texte pour les actionner. DeepMind formalise quatre principes de conception pour y remédier, dont "maintenir le flux" (l'IA suit l'utilisateur là où il travaille, sans détour) et "montrer et dire" (le pointeur capte le contexte visuel, remplaçant les prompts détaillés par un simple geste). Microsoft avance en parallèle avec Copilot intégré à Windows, tandis qu'Apple mise sur des capacités similaires avec Apple Intelligence. Avec l'annonce simultanée des laptops Googlebook et le déploiement dans Chrome, Google positionne Gemini comme une couche système universelle, ce qui pourrait redéfinir profondément la manière dont des centaines de millions d'utilisateurs interagissent avec leur ordinateur au quotidien.

UEL'intégration d'une IA ambiante dans les navigateurs et systèmes d'exploitation pourrait modifier les pratiques numériques de millions d'utilisateurs européens, soulevant des questions sur la dépendance aux grandes plateformes et la conformité au RGPD.

OutilsOutil
1 source
Adieu Google Assistant : Gemini s’invite dans 250 millions de voitures, et vous pouvez (presque) tout lui demander
66Frandroid 

Adieu Google Assistant : Gemini s’invite dans 250 millions de voitures, et vous pouvez (presque) tout lui demander

Google a officiellement enclenché le remplacement de Google Assistant par son IA générative Gemini sur Android Auto, le système d'interface automobile de la firme de Mountain View. La migration touche désormais plus de 250 millions de véhicules compatibles dans le monde, ce qui en fait la plus grande bascule logicielle jamais réalisée dans le secteur automobile. Contrairement à l'ancien assistant vocal limité à des commandes prédéfinies, Gemini permet aux conducteurs de formuler des requêtes en langage naturel : résumer des messages longs, poser des questions complexes ou obtenir des informations contextuelles sans quitter les yeux de la route. L'enjeu est considérable pour les utilisateurs comme pour l'industrie. Un assistant capable de comprendre des questions ouvertes transforme concrètement l'expérience au volant, en réduisant les frictions liées à la dictée de messages ou à la navigation vocale. Pour Google, cette migration représente aussi un levier stratégique : imposer Gemini comme couche IA standard dans l'automobile, un espace où Amazon Alexa et les assistants natifs des constructeurs se disputent déjà les usages quotidiens. Cette transition s'inscrit dans la stratégie globale de Google visant à déployer Gemini sur l'ensemble de son écosystème, des smartphones Pixel aux appareils Nest, en passant par Gmail et Google Search. Android Auto équipe aujourd'hui des véhicules de presque tous les grands constructeurs mondiaux, ce qui donne à Google un accès massif au quotidien des conducteurs. Quelques zones d'ombre subsistent toutefois, notamment sur la disponibilité des fonctionnalités hors ligne et les limites de l'assistant selon les régions ou les langues.

UELe remplacement de Google Assistant par Gemini sur Android Auto affecte les conducteurs européens utilisant des véhicules compatibles, mais les limites de disponibilité par région et par langue pourraient retarder ou restreindre l'accès complet aux nouvelles fonctionnalités dans l'UE.

OutilsOutil
1 source
Gemini peut désormais contrôler votre téléphone : les nouvelles fonctionnalités clés
67The Verge AI 

Gemini peut désormais contrôler votre téléphone : les nouvelles fonctionnalités clés

Google a dévoilé une série de nouvelles fonctionnalités pour son assistant Gemini lors d'un événement Android organisé en amont de sa conférence annuelle Google I/O. Présentées par Ben Greenwood, directeur des expériences Android chez Google, ces nouveautés visent à intégrer Gemini plus profondément dans l'usage quotidien du smartphone : l'assistant s'invite désormais dans Chrome sur Android, dans les suggestions de remplissage automatique, et peut interagir directement au sein des applications tierces. Google en profite pour lancer une nouvelle marque, Gemini Intelligence, destinée à regrouper les fonctionnalités les plus avancées de l'assistant sur les appareils Android haut de gamme. L'enjeu principal de cette mise à jour est de transformer Gemini en un véritable agent capable d'agir à la place de l'utilisateur sur son téléphone, pas seulement de répondre à des questions. En s'intégrant aux applications et au remplissage automatique, Gemini peut potentiellement exécuter des tâches complexes sans que l'utilisateur ait besoin de naviguer manuellement entre les écrans. Cela représente un saut qualitatif dans l'assistance mobile, particulièrement pour les utilisateurs qui délèguent de plus en plus leurs tâches numériques à l'IA. Cette annonce s'inscrit dans une compétition acharnée entre Google et Apple, qui prépare sa propre refonte d'Apple Intelligence pour iOS 19. En réservant Gemini Intelligence aux appareils Android les plus récents, Google adopte une stratégie similaire à celle d'Apple, utilisant l'IA comme argument de vente pour pousser les utilisateurs vers le renouvellement de leurs appareils. Les détails complets seront probablement précisés lors de Google I/O dans les prochains jours.

UELes utilisateurs européens d'Android pourront bénéficier de ces nouvelles capacités agentiques de Gemini, sous réserve de conformité avec le RGPD et le Digital Markets Act qui encadrent l'intégration d'assistants IA dans les systèmes d'exploitation.

OutilsOutil
1 source
Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro
68VentureBeat AI 

Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro

Sakana AI, laboratoire fondé par d'anciens chercheurs de Google DeepMind, a présenté le « RL Conductor », un modèle de langage de 7 milliards de paramètres entraîné par apprentissage par renforcement pour orchestrer automatiquement un ensemble de grands modèles de langage comme GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro. Contrairement aux pipelines traditionnels à code fixe, le Conductor analyse chaque requête entrante, décompose le problème en sous-tâches, sélectionne dynamiquement les modèles les mieux adaptés et définit en langage naturel les instructions et les topologies de communication entre agents. Sur les benchmarks de raisonnement avancé et de génération de code, ce système dépasse non seulement les meilleurs modèles frontières pris individuellement, mais aussi les pipelines multi-agents conçus à la main par des ingénieurs humains, tout en nécessitant moins d'appels API et un coût d'inférence sensiblement réduit. Le RL Conductor constitue le coeur technique de Fugu, le service commercial d'orchestration multi-agents que Sakana AI a mis sur le marché. L'enjeu est considérable pour l'industrie : la quasi-totalité des systèmes agentiques en production reposent aujourd'hui sur des frameworks comme LangChain avec des routes câblées à la main. Or, comme l'explique Yujin Tang, co-auteur de la recherche, ces architectures rigides s'effondrent dès que la distribution des requêtes évolue, ce qui est inévitable à l'échelle avec des bases d'utilisateurs aux besoins hétérogènes. Le Conductor résout ce problème en apprenant lui-même, par essai-erreur, quelles combinaisons de modèles et de structures de communication maximisent la qualité des réponses, sans qu'un humain ait besoin de prédire ou d'encoder ces combinaisons à l'avance. Pour les équipes qui déploient des applications IA en production, cela représente un gain opérationnel direct : moins de maintenance sur les pipelines, une meilleure généralisation hors distribution, et une réduction des coûts API. Sakana AI s'inscrit dans un courant de recherche plus large sur l'orchestration automatique d'agents, une discipline qui gagne rapidement en importance à mesure que les modèles frontières se spécialisent dans des domaines distincts, code, raisonnement scientifique, planification de haut niveau, rendant impossible toute sélection manuelle optimale pour chaque tâche. L'approche par renforcement, où aucune règle n'est codée en dur et où la stratégie émerge de l'expérience, représente une rupture méthodologique avec les frameworks actuels. Le fait qu'un modèle de 7 milliards de paramètres suffise à coordonner des systèmes bien plus grands comme GPT-5 soulève des questions sur l'architecture future des stacks IA en entreprise, et ouvre la voie à des orchestrateurs spécialisés, légers et entraînables, capables de s'adapter continuellement aux besoins réels des utilisateurs.

UELes équipes européennes déployant des systèmes multi-agents en production pourraient réduire leurs coûts d'inférence et leur charge de maintenance pipeline, mais aucun impact direct sur la France ou l'UE n'est identifié.

💬 Un 7B qui pilote GPT-5 et Claude, c'est le genre de résultat qui retourne un peu nos intuitions sur ce que "plus grand = meilleur" veut dire. Ce que Sakana prouve, c'est que la valeur dans un système agentique tient à l'orchestration, pas à la taille des modèles individuels, et que cette couche-là peut s'apprendre par renforcement plutôt que se câbler à la main. Reste à voir si Fugu tient avec de vraies distributions en prod.

LLMsPaper
1 source
Gemini 3.2 Flash dévoilé par erreur par Google ?
69Le Big Data 

Gemini 3.2 Flash dévoilé par erreur par Google ?

Google a involontairement dévoilé l'existence de Gemini 3.2 Flash le 5 mai 2026, plusieurs semaines avant la Google I/O prévue les 19 et 20 mai. Des captures d'écran partagées sur les réseaux sociaux montrent le modèle apparaître dans l'application officielle Gemini, sous la dénomination "Aide complète", aux côtés des modèles Gemini 3.1 Lite et Pro. Des données issues de Google AI Studio précisent les tarifs envisagés : 0,25 dollar par million de tokens en entrée et 2 dollars en sortie, avec une base de connaissances arrêtée à janvier 2026. Google n'a officialisé aucune annonce, mais les fuites ont rapidement circulé parmi les testeurs et les observateurs du secteur. Les premiers retours de ces testeurs sont frappants : Gemini 3.2 Flash rivalisait, selon eux, avec des modèles bien plus lourds sur des tâches créatives et techniques. Parmi les exemples cités, la génération d'animations ASCII représentant des paysages urbains détaillés en HTML, ou encore la production de fichiers SVG d'une précision inhabituelle pour un modèle de la gamme Flash. Certains utilisateurs le qualifient même de "quasiment équivalent" à Gemini 3.1 Pro sur plusieurs usages. Si ces performances se confirment à grande échelle, l'impact serait considérable : un modèle rapide et peu coûteux atteignant le niveau d'un modèle premium redistribue les équilibres économiques pour les développeurs et les entreprises qui arbitrent entre coût et puissance dans leurs applications IA. Cette fuite s'inscrit dans une stratégie d'accélération visible chez Google depuis plusieurs mois. La firme multiplie les versions de sa gamme Gemini à un rythme soutenu, cherchant à ne pas laisser OpenAI, Anthropic ou Meta prendre de l'avance sur les usages les plus demandés. L'un des axes prioritaires est l'amélioration des capacités "agentiques", c'est-à-dire la faculté d'un modèle à agir de façon autonome, à enchaîner des tâches complexes et à s'adapter au contexte utilisateur. La Google I/O constitue chaque année la vitrine de ces ambitions, et la version 3.2 Flash pourrait n'être qu'un avant-goût d'annonces plus larges sur l'écosystème Gemini. La question reste entière : la version finale confirmera-t-elle les performances observées dans ces tests préliminaires, ou Google réservera-t-il les capacités les plus spectaculaires à un modèle supérieur dévoilé en mai ?

UELes développeurs et entreprises européennes utilisant les APIs Gemini pourraient accéder à un modèle rapide et peu coûteux (0,25 $/M tokens entrée) aux performances proches du niveau premium, réduisant significativement les coûts d'intégration IA.

LLMsOpinion
1 source
Aouch ! Google publie par accident l’application qui va remplacer Gemini
70Le Big Data 

Aouch ! Google publie par accident l’application qui va remplacer Gemini

Le 30 avril 2026, Google a brièvement publié sur le Play Store une application baptisée COSMO, signée Google Research et présentée comme un « experimental AI assistant ». L'application, pesant 1,13 Go, embarque directement un modèle Gemini Nano capable de fonctionner en local sur l'appareil, sans recours systématique au cloud. Elle a disparu aussi rapidement qu'elle était apparue, mais les captures d'écran et les descriptions techniques ont eu le temps de circuler. L'interface, visiblement non finalisée, ressemblait davantage à un prototype interne qu'à un produit destiné au grand public, certaines illustrations du Play Store étant même mal affichées, signe que la publication était accidentelle. Ce qui distingue COSMO des assistants conversationnels classiques, c'est son comportement proactif : l'application ne répond pas à des requêtes, elle observe ce qui se passe à l'écran et agit sans qu'on le lui demande. Elle repose sur quatorze « Skills » capables de se déclencher automatiquement selon le contexte. Si une conversation mentionne un délai, l'assistant propose un minuteur. Si un rendez-vous apparaît dans un message, il suggère de l'ajouter à Google Agenda. Si un terme inconnu figure dans un PDF ouvert, il en affiche la définition instantanément. L'application intègre même un « Browser Agent » capable de naviguer sur le web à la place de l'utilisateur, rappelant le projet Mariner de Google. Pour fonctionner ainsi, COSMO exploite l'API d'accessibilité d'Android, ce qui lui donne un accès étendu à ce qui s'affiche sur l'écran, une capacité puissante, mais qui soulève immédiatement des questions sérieuses sur la collecte de données et le risque de surveillance permanente. Sur le plan technique, Google teste trois modes de traitement distincts : un mode entièrement local via Gemini Nano pour préserver la confidentialité, un mode cloud via une infrastructure baptisée « PI » pour des traitements plus puissants, et un mode hybride combinant les deux selon la situation. COSMO s'inscrit dans une tendance plus large chez les grands acteurs tech : aller au-delà du chatbot réactif pour construire des agents capables d'agir de manière autonome dans l'environnement numérique de l'utilisateur. Apple développe une vision similaire avec une Siri plus contextuelle, tandis que Microsoft intègre Copilot de plus en plus profondément dans Windows. Cette fuite accidentelle intervient à moins de trois semaines du Google I/O 2026, prévu le 19 mai, où Google devrait officiellement dévoiler sa nouvelle génération d'assistants. COSMO pourrait bien en être la pièce maîtresse.

UEL'accès permanent à l'écran via l'API d'accessibilité d'Android soulève des questions de conformité GDPR et AI Act qui s'appliqueront à COSMO lors de son déploiement en Europe.

Plus besoin de bosser vos fichiers : Gemini crée des documents en quelques secondes
71Le Big Data 

Plus besoin de bosser vos fichiers : Gemini crée des documents en quelques secondes

Google a annoncé le 29 avril 2026 une nouvelle fonctionnalité pour son assistant Gemini : la génération directe de fichiers téléchargeables depuis l'interface de chat. Les utilisateurs peuvent désormais demander à Gemini de produire des documents Word, des feuilles Excel, des PDF et d'autres formats compatibles avec Google Workspace ou Microsoft Office, sans quitter la conversation. Il suffit de décrire son besoin en langage naturel, un rapport client, un CV, un tableau de données, et l'IA génère le fichier complet en quelques secondes, structuré et prêt à l'emploi. Aucun modèle à importer, aucune manipulation préalable requise. La fonctionnalité a été présentée par le compte officiel @GeminiApp sur X, accompagnée d'une vidéo montrant la création simultanée de plusieurs fichiers à partir d'une seule requête. Ce changement supprime une friction majeure dans les flux de travail quotidiens : le copier-coller entre Gemini et un logiciel de bureautique. Pour les professionnels qui utilisent l'IA comme outil de production, rédaction de rapports, construction de tableaux de bord, préparation de présentations, le gain de temps est substantiel. Ce qui prenait auparavant plusieurs logiciels et une série d'allers-retours se centralise désormais en un seul point de saisie. L'impact touche aussi bien les indépendants que les équipes en entreprise, notamment pour les tâches répétitives à faible valeur ajoutée. La nuance tient cependant à la qualité : générer vite ne garantit pas générer juste. Sans relecture humaine, les documents produits peuvent manquer de précision ou de pertinence contextuelle, en particulier pour des livrables destinés à des clients ou des décideurs. Cette annonce s'inscrit dans une tendance de fond chez les grands acteurs de l'IA générative : transformer les assistants conversationnels en outils de production à part entière, capables de remplacer non seulement la réflexion mais aussi l'exécution technique. Microsoft intègre Copilot directement dans Office depuis 2023, OpenAI pousse ses Canvas et ses outils de génération de contenu, et Google accélère l'intégration de Gemini dans Workspace. La bataille se joue désormais sur le terrain de la productivité concrète, mesurable en heures économisées par semaine. Pour Google, cette fonctionnalité renforce la position de Gemini face à ses concurrents directs, notamment ChatGPT et Copilot, sur le marché des assistants professionnels. Les suites logicielles traditionnelles comme Microsoft 365 ou Google Docs ne disparaissent pas pour autant, mais leur rôle évolue : de point d'entrée, elles deviennent potentiellement un simple format de sortie.

UELes professionnels français et européens peuvent immédiatement tester cette fonctionnalité pour réduire le temps consacré à la production documentaire bureautique.

OutilsOutil
1 source
☕️ Suivant OpenAI, Google négocie pour faire une place à Gemini au Pentagone
72Next INpact 

☕️ Suivant OpenAI, Google négocie pour faire une place à Gemini au Pentagone

Le Pentagone est en négociation avec Google pour intégrer Gemini, le modèle d'intelligence artificielle de l'entreprise, au sein du département de la Défense américain. Cameron Stanley, le responsable numérique du Pentagone, a confirmé ces discussions à CNBC, soulignant qu'il n'était « jamais bon de trop dépendre d'un seul fournisseur ». Cette démarche s'inscrit dans une séquence entamée en mars 2026 avec OpenAI, avec qui un premier accord avait déjà été conclu. Selon Stanley, l'utilisation de Gemini permettrait au Pentagone d'économiser « littéralement des milliers d'heures de travail chaque semaine ». Google, de son côté, affirme faire partie d'un « vaste consortium » fournissant déjà des services au service de la sécurité nationale américaine. Cette orientation vers Google et OpenAI intervient directement après le bras de fer entre le Pentagone et Anthropic. La startup avait été qualifiée de « fournisseur à risque pour la sécurité nationale », une désignation qui l'empêche de collaborer avec le département de la Défense. La justice américaine vient de rejeter l'appel d'Anthropic contre cette qualification. Face à ce vide, le Pentagone diversifie ses fournisseurs d'IA, ce qui représente un signal fort pour toute l'industrie : le marché de la défense américaine, massif et stratégique, devient un terrain de compétition direct entre les grands acteurs de l'IA. L'enjeu ne se limite pas aux contrats eux-mêmes, mais au positionnement géopolitique et technologique que ces partenariats impliquent. Ces accords suscitent néanmoins des résistances internes significatives. Chez OpenAI, le contrat avec le Pentagone avait provoqué des tensions jusqu'à la démission de Caitlin Kalinowski, responsable de la branche robotique. Chez Google, plus de 600 employés, dont une part importante travaille au DeepMind AI lab qui développe Gemini, ont adressé une lettre ouverte au PDG Sundar Pichai pour s'y opposer. Ils y dénoncent un risque d'usage militaire opaque : « La seule façon de garantir que Google ne soit pas associé à de tels préjudices est de refuser tout contrat classifié », écrivent-ils, évoquant explicitement les armes autonomes létales et la surveillance de masse. Cette fracture entre direction et ingénieurs reflète une tension structurelle croissante dans le secteur : à mesure que l'IA devient un outil militaire de premier plan, les entreprises technologiques se trouvent contraintes de choisir entre croissance commerciale et éthique de leurs équipes.

UELa consolidation du marché de l'IA militaire américaine autour de quelques acteurs majeurs renforce l'urgence pour l'Europe de développer des capacités d'IA souveraine dans le domaine de la défense, afin de réduire sa dépendance aux plateformes extraeuropéennes.

BusinessOpinion
1 source
Google révolutionne la maison connectée : Gemini devient vraiment naturel
73Le Big Data 

Google révolutionne la maison connectée : Gemini devient vraiment naturel

Google a annoncé le 21 avril 2026 le déploiement de la fonctionnalité "Conversation continue" sur ses appareils équipés de l'assistant Gemini pour la maison connectée. Répondant à une demande largement exprimée par les utilisateurs du programme d'accès anticipé, cette mise à jour supprime l'obligation de répéter le mot d'activation "Hey Google" à chaque nouvelle commande. Concrètement, après une première interaction, le micro reste actif quelques secondes, permettant d'enchaîner les échanges sans relancer la commande vocale. Le déploiement s'accompagne de plusieurs évolutions : conservation du contexte conversationnel entre les répliques, prise en charge multilingue étendue à toutes les langues compatibles avec Google Home, amélioration de la détection pour distinguer les conversations informelles des vraies commandes, et ouverture de la fonctionnalité à l'ensemble des occupants d'un foyer, invités compris. L'activation se fait depuis les paramètres de l'application Google Home, et s'applique automatiquement à tous les appareils compatibles du domicile. Ce changement est significatif car il s'attaque à l'un des principaux freins à l'adoption quotidienne des assistants vocaux : la friction liée aux déclencheurs répétitifs. En rendant les échanges plus continus et moins mécaniques, Google cherche à transformer Gemini en interlocuteur réel plutôt qu'en outil à commandes isolées. Pour les foyers avec plusieurs occupants, la compatibilité multi-utilisateurs sans configuration individuelle représente un gain d'accessibilité concret. Pour les professionnels du secteur de la maison connectée, fabricants de dispositifs compatibles Google Home inclus, cette évolution redéfinit le niveau d'expérience utilisateur attendu, et pousse indirectement à réévaluer la conception des interactions vocales dans leurs propres produits. Cette mise à jour s'inscrit dans une course à la naturalité entre les grands acteurs de l'assistant vocal domestique. Amazon avec Alexa, Apple avec Siri HomeKit et Google se livrent depuis plusieurs années une compétition où la qualité de la conversation est devenue l'enjeu central, après avoir longtemps misé sur l'étendue du catalogue d'appareils compatibles. L'intégration de Gemini dans l'écosystème Google Home, amorcée progressivement depuis le tournant LLM de 2023-2024, marque l'aboutissement d'une stratégie visant à remplacer l'ancien Assistant par un modèle de langage plus capable. La prochaine étape probable concerne la mémoire à long terme entre sessions et la personnalisation contextuelle poussée, deux axes sur lesquels OpenAI et Anthropic exercent également une pression indirecte via leurs propres interfaces conversationnelles. La maison connectée entre dans une phase où l'intelligence du dialogue prime sur le simple catalogue de commandes.

UELa fonctionnalité 'Conversation continue' est disponible pour les utilisateurs francophones de Google Home, le français étant inclus dans les langues compatibles dès le déploiement.

OutilsOutil
1 source
74Next INpact 

☕️ Google : 1,6 milliard de publicités frauduleuses supprimées dans l’UE avec Gemini

En 2025, Google a supprimé ou bloqué 8,3 milliards de publicités frauduleuses à travers le monde, dont 1,6 milliard dans l'Union européenne, un record absolu par rapport aux 5,1 milliards retirés en 2024. L'entreprise a également suspendu 24,9 millions de comptes publicitaires, dont 4 millions directement liés à des escroqueries et 2 millions dans le seul espace européen. En Europe, la principale cause de suppression reste ce que Google appelle l'«abus du réseau publicitaire» : annonces dissimulant leur vraie nature, contenus liés à des logiciels malveillants, tentatives de contournement des systèmes de vérification ou pratiques visant à obtenir un avantage déloyal sur la plateforme. Ces chiffres sont publiés dans le rapport annuel de transparence publicitaire que l'entreprise présente chaque année. Ce bond spectaculaire du nombre de suppressions est en grande partie attribué à l'intégration de Gemini, le modèle d'IA générative de Google, au cœur des systèmes de modération publicitaire. Selon Keerat Sharma, directeur général chargé de la confidentialité et de la sécurité des publicités, Gemini analyse des «milliards de signaux», ancienneté des comptes, comportements suspects, schémas de campagne, pour détecter et bloquer les violations avant même que les annonces ne soient diffusées. Contrairement aux anciens systèmes fondés sur la correspondance de mots-clés, les derniers modèles Gemini comprennent mieux les intentions des annonceurs, ce qui leur permet de distinguer plus finement une offre commerciale légitime d'une tentative d'escroquerie. Résultat : les suspensions injustifiées d'annonceurs honnêtes ont chuté de 80 %, et 99 % des annonces enfreignant les règles sont désormais interceptées avant publication. À la fin de 2025, la majorité des annonces responsives créées dans Google Ads étaient examinées instantanément, et Google prévoit d'étendre cette capacité à d'autres formats publicitaires en 2026. Cette offensive de Google contre la fraude publicitaire s'inscrit dans un contexte de montée en puissance des arnaques numériques alimentées, elles aussi, par l'IA générative. Les acteurs malveillants utilisent désormais ces mêmes outils pour fabriquer des publicités trompeuses à grande échelle, ce qui oblige les plateformes à accélérer leur propre arsenal défensif. Google mise sur une approche combinée : intelligence artificielle d'un côté, programme de vérification manuelle de l'identité des annonceurs de l'autre, afin de bloquer les fraudeurs en amont. La pression réglementaire européenne joue également un rôle, le marché de l'UE faisant l'objet d'un suivi particulier dans les données publiées. À titre de comparaison, une étude récente indique que 31 % des publicités diffusées sur les plateformes de Meta seraient malveillantes, ce qui illustre l'ampleur du problème au-delà de Google et la course aux armements qui s'engage entre plateformes et fraudeurs.

UEAvec 1,6 milliard de publicités frauduleuses supprimées et 2 millions de comptes publicitaires suspendus dans l'UE en 2025, les consommateurs et annonceurs européens bénéficient directement d'une protection renforcée contre les escroqueries numériques alimentées par l'IA générative.

SécuritéActu
1 source
Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini
75Ars Technica AI 

Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini

Les chiens robots de Boston Dynamics, comme le quadrupède Spot, sont désormais capables de lire avec précision des thermomètres analogiques et des manomètres lors de leurs rondes dans les usines et entrepôts. Cette avancée repose sur le nouveau modèle d'IA robotique de Google DeepMind, baptisé Gemini Robotics-ER 1.6, annoncé le 14 avril 2026. Ce modèle agit comme un "moteur de raisonnement de haut niveau pour robot", capable de planifier et d'exécuter des tâches complexes impliquant une compréhension fine de l'environnement physique. Il permet notamment de déchiffrer des instruments de mesure comprenant plusieurs aiguilles, des niveaux de liquide, des graduations et du texte, ainsi que d'effectuer des inspections visuelles via des hublots transparents donnant accès à l'intérieur de cuves et de tuyauteries. Cette capacité de "raisonnement incarné" représente un saut qualitatif important pour l'automatisation industrielle. Jusqu'ici, lire un manomètre analogique ou interpréter un niveau dans un réservoir exigeait une intervention humaine ou des capteurs dédiés. Avec Gemini Robotics-ER 1.6, un robot comme Spot peut désormais effectuer des rondes d'inspection autonomes dans des environnements industriels complexes sans infrastructure supplémentaire, réduisant potentiellement les coûts de maintenance et les risques pour les opérateurs humains dans des zones dangereuses. Ce développement s'inscrit dans la collaboration continue entre Google DeepMind et Boston Dynamics, entreprise détenue par le constructeur automobile coréen Hyundai Motor Group. Hyundai teste activement des robots bipèdes et quadrupèdes dans ses usines d'assemblage automobile, faisant de ces environnements un terrain d'expérimentation privilégié. La course à l'IA robotique s'intensifie entre les grands acteurs technologiques, et l'intégration de modèles de vision multimodaux puissants comme Gemini dans des robots physiques ouvre la voie à des inspecteurs autonomes capables d'opérer dans n'importe quelle installation industrielle existante, sans modification matérielle.

UELes industriels européens pourraient adopter cette technologie pour automatiser les rondes d'inspection sans modifier leur infrastructure existante, mais aucune entreprise ou institution française/européenne n'est directement impliquée.

RobotiqueActu
1 source
Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio
76Le Big Data 

Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio

Google a lancé le 15 avril 2026 Gemini 3.1 Flash TTS, son nouveau modèle de synthèse vocale conçu pour donner aux créateurs un contrôle fin sur le rendu émotionnel des voix générées. La principale nouveauté réside dans l'introduction des balises audio, des commandes en langage naturel intégrées directement dans le texte pour piloter le rythme, l'intonation et le style vocal phrase par phrase. Concrètement, un développeur peut indiquer dans sa requête qu'un passage doit être prononcé avec "excitation" ou de manière "explicative", et le modèle adapte sa synthèse en conséquence. Le modèle prend en charge plus de 70 langues, dont 24 bénéficient d'une qualité dite premium, parmi lesquelles l'hindi, le japonais et l'allemand. Il est déjà intégré dans Google Vids, la Gemini API et Google AI Studio, et inclut le watermarking SynthID sur tous les outputs. Cette capacité à sculpter la voix par instructions textuelles représente un changement de paradigme pour les producteurs de contenu audio et les équipes de développement. Jusqu'ici, les modèles TTS généraient une voix uniforme, difficile à différencier selon le contexte ou le ton voulu. Avec Gemini 3.1 Flash TTS, les entreprises qui produisent des podcasts automatisés, des assistants vocaux, des vidéos pédagogiques ou des expériences de narration interactive peuvent adapter le rendu vocal sans post-production manuelle. La couverture multilingue avec maintien de la cohérence émotionnelle ouvre aussi la voie à des déploiements localisés à grande échelle, un enjeu crucial pour les acteurs globaux qui ne peuvent pas se permettre de perdre en expressivité lors du passage d'une langue à l'autre. Cette annonce s'inscrit dans une course intense entre les grands acteurs de l'IA générative pour dominer le segment de la voix. OpenAI a lancé ses propres capacités TTS via l'API et ses modèles de voix en temps réel, ElevenLabs a consolidé sa position sur le marché des créateurs, et Microsoft intègre des fonctions similaires dans Azure Cognitive Services. Google, avec DeepMind en soutien, mise sur l'intégration native dans son écosystème existant, Google Vids, AI Studio, pour accélérer l'adoption sans friction. Le fait que Gemini 3.1 Flash TTS soit directement accessible via la Gemini API suggère une stratégie orientée développeurs d'abord, avant un éventuel déploiement grand public. Les prochaines étapes probables incluent une extension des langues premium, un affinement des balises disponibles et une intégration dans NotebookLM ou d'autres outils de productivité Google déjà très utilisés.

UELes développeurs et producteurs de contenu européens peuvent intégrer dès maintenant des capacités TTS émotionnelles multilingues via la Gemini API, ouvrant la voie à des déploiements localisés à grande échelle sans post-production vocale manuelle.

CréationOpinion
1 source
Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable
77MarkTechPost 

Google AI lance Gemini 3.1 Flash TTS : un nouveau standard pour la voix IA expressive et contrôlable

Google a lancé Gemini 3.1 Flash TTS, un nouveau modèle de synthèse vocale disponible en préversion via l'API Gemini, Google AI Studio, Vertex AI pour les entreprises et Google Vids pour les utilisateurs Workspace. Le modèle affiche un score Elo de 1 211 sur le classement Artificial Analysis TTS Leaderboard, ce qui en fait le modèle vocal le plus naturel et expressif jamais proposé par Google. Sa particularité technique réside dans le recours à des balises audio et au prompting en langage naturel pour piloter le style, le ton, le rythme, l'accentuation et les nuances dialectales dans plus de 70 langues. Le modèle gère également nativement le dialogue multi-locuteurs, sans nécessiter d'appels API séparés pour chaque voix, ce qui garantit une fluidité conversationnelle bien supérieure aux pipelines TTS traditionnels. Enfin, chaque audio généré intègre automatiquement un filigrane invisible SynthID, conçu pour être imperceptible à l'écoute tout en permettant une détection fiable du contenu généré par IA. Cette version marque un tournant dans la façon dont les développeurs construisent des expériences vocales. En permettant de diriger le modèle comme un réalisateur audio plutôt que de subir une conversion figée, Google ouvre la voie à des cas d'usage bien plus sophistiqués : podcasts générés automatiquement avec plusieurs intervenants distincts, scripts dramatiques, interfaces d'assistants collaboratifs ou encore doublages multilingues. Pour les entreprises clientes de Vertex AI, la combinaison de la qualité benchmark, du contrôle fin et du watermarking intégré répond directement aux exigences de conformité et de traçabilité qui freinent souvent l'adoption de l'audio généré par IA dans des contextes professionnels sensibles. Ce lancement s'inscrit dans une course intense entre les grandes plateformes technologiques pour dominer la synthèse vocale expressive. OpenAI avec ses modèles TTS, ElevenLabs et d'autres acteurs spécialisés ont considérablement élevé le niveau d'attente des développeurs ces deux dernières années. Google répond en misant sur son infrastructure existante, l'intégration native dans l'écosystème Workspace et la profondeur multilingue, des atouts structurels que les startups peinent à répliquer à cette échelle. L'intégration de SynthID dans un modèle grand public est également un signal politique fort : alors que la régulation de l'IA générative s'intensifie en Europe et aux États-Unis, Google anticipe les futures obligations de transparence sur les contenus synthétiques. La suite logique sera d'observer si ce modèle s'impose comme référence dans les benchmarks indépendants et comment les concurrents répondront dans les prochains mois.

UEL'intégration native du filigrane SynthID anticipe les obligations de transparence sur les contenus synthétiques imposées par l'AI Act européen, facilitant la conformité pour les entreprises utilisant Vertex AI.

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
78MarkTechPost 

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques. L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique. Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

UELes capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

RobotiqueOpinion
1 source
79Ars Technica AI 

Google lance les "Skills" dans Chrome pour rendre les invites Gemini instantanément réutilisables

Google a introduit une nouvelle fonctionnalité baptisée "Skills" dans son navigateur Chrome, permettant aux utilisateurs de sauvegarder des invites Gemini pour les réutiliser en un seul clic. Disponible sur la version desktop de Chrome, cette fonction s'intègre directement dans l'interface du navigateur : en tapant un slash ( / ) dans Gemini ou en cliquant sur le bouton plus, l'utilisateur accède instantanément à ses invites sauvegardées. Les Skills sont synchronisés entre appareils via le compte Google, et peuvent être configurés pour opérer sur plusieurs onglets simultanément lorsque la tâche nécessite de croiser plusieurs sources. Cette nouveauté ne crée pas de capacités inédites pour Gemini, mais réduit considérablement la friction dans l'utilisation quotidienne de l'IA dans le navigateur. Jusqu'ici, chaque fois qu'un utilisateur souhaitait répéter une action Gemini, résumer une page, reformuler un texte, extraire des informations, il devait ressaisir ou coller manuellement son invite. En transformant ces workflows répétitifs en raccourcis persistants, Google cherche à ancrer Gemini dans les habitudes de navigation, passant d'un outil ponctuel à un assistant véritablement intégré au quotidien numérique. Chrome représente un levier stratégique majeur pour Google dans la bataille de l'adoption de l'IA : avec plus de 65 % de parts de marché mondial des navigateurs, il constitue une surface de distribution sans équivalent. La société multiplie depuis plusieurs mois les intégrations de Gemini dans Chrome, allant jusqu'à lui donner la capacité de contrôler le navigateur de façon autonome. Cette dynamique s'inscrit dans une compétition féroce avec Microsoft, qui a intégré Copilot dans Edge selon une stratégie similaire. Les Skills représentent une étape supplémentaire vers un Chrome où l'IA n'est plus une option annexe, mais le cœur de l'expérience de navigation.

UELes utilisateurs européens de Chrome, qui représentent une large part des 65 % de parts de marché mondiales du navigateur, pourront utiliser cette fonctionnalité, renforçant l'intégration de Gemini dans leur quotidien numérique.

OutilsOutil
1 source
Gemini intègre des carnets de notes pour organiser vos projets
80The Verge AI 

Gemini intègre des carnets de notes pour organiser vos projets

Google a annoncé mercredi le lancement d'une nouvelle fonctionnalité appelée "notebooks" dans son assistant Gemini. Cette fonction permet aux utilisateurs de regrouper en un seul endroit des fichiers, des conversations passées et des instructions personnalisées autour d'un sujet donné. Gemini peut ensuite exploiter tout ce contenu comme contexte lors des échanges. Google décrit les notebooks comme des "bases de connaissances personnelles partagées entre les produits Google", avec une intégration qui commence dans Gemini avant de s'étendre à d'autres services de la suite. Cette fonctionnalité représente un changement important dans la manière dont les utilisateurs interagissent avec les assistants IA : plutôt que de repartir de zéro à chaque conversation, ils peuvent maintenant maintenir un fil de continuité autour de projets ou de sujets précis. Pour les professionnels qui utilisent Gemini au quotidien, cela signifie moins de répétition et une meilleure cohérence dans les réponses obtenues. L'intégration prévue avec l'ensemble de l'écosystème Google pourrait renforcer significativement l'utilité de l'outil dans des contextes de travail réels. La fonctionnalité s'inscrit directement dans la compétition avec OpenAI, dont la fonctionnalité "Projects" de ChatGPT, lancée en 2024, propose un concept très similaire. Google se retrouve donc dans une position de suiveur sur ce terrain précis, même si son avantage réside dans l'intégration native avec ses propres produits (Docs, Drive, Gmail, etc.). La bataille pour fidéliser les utilisateurs via des espaces de travail persistants est désormais un axe stratégique central pour les grands acteurs de l'IA générative.

UELa fonctionnalité notebooks de Gemini est disponible pour les utilisateurs européens, offrant une meilleure continuité de travail, mais sans impact réglementaire ou stratégique spécifique pour la France ou l'UE.

OutilsOutil
1 source
ChatGPT, Gemini, Claude… Pika donne un visage (et une voix) à toutes vos IA !
81Le Big Data 

ChatGPT, Gemini, Claude… Pika donne un visage (et une voix) à toutes vos IA !

Pika Labs a lancé le 2 avril 2026 PikaStream 1.0, un modèle temps réel qui transforme n'importe quel agent IA -- ChatGPT, Claude, Gemini ou autre -- en interlocuteur visible et vocal dans une visioconférence. Concrètement, l'outil permet à un agent IA de rejoindre une réunion Google Meet sous forme d'avatar animé, avec une voix clonée en quelques secondes d'enregistrement. Le tarif annoncé est de 0,20 dollar la minute d'utilisation. Le module principal, pikastream-video-meeting, est distribué en open source sur GitHub dans le cadre d'une initiative plus large baptisée Pika Skills, un ensemble de briques modulaires destinées à étendre les capacités des agents IA. L'intégration ne requiert pas de configuration complexe : il suffit de partager un lien de réunion pour que l'agent prenne le relais. Ce que PikaStream change fondamentalement, c'est le passage de l'IA textuelle à l'IA incarnée. Jusqu'ici, interagir avec un modèle comme Claude ou Gemini restait confiné à une interface de chat, parfois augmentée de la voix, mais sans présence visuelle. PikaStream franchit ce cap en dotant l'agent d'un avatar cohérent avec l'identité de l'utilisateur ou de son entreprise, d'une voix personnalisée et d'une mémoire persistante des échanges passés. L'agent sait avec qui il travaille, ce qui a déjà été discuté, et maintient une personnalité stable d'une réunion à l'autre. Il peut aussi agir en direct pendant l'appel -- chercher un document, rédiger un compte rendu, mettre à jour un outil de gestion de projet ou envoyer un e-mail -- sans interrompre la conversation. Pour les équipes distribuées, cela ouvre la possibilité de déléguer les réunions de routine à un agent, réduisant la fatigue liée aux appels vidéo répétitifs. La sortie de PikaStream s'inscrit dans une course plus large entre les acteurs de l'IA à rendre leurs modèles physiquement présents dans les workflows professionnels. Des projets comme Microsoft Copilot ou les agents vocaux d'OpenAI explorent des territoires proches, mais PikaStream se distingue par son approche ouverte et son interopérabilité explicite avec les agents existants, quelle que soit leur origine. Le choix de l'open source est stratégique : en laissant les développeurs adapter et enrichir le module, Pika Labs mise sur une adoption rapide dans les environnements techniques, là où les solutions fermées butent souvent sur des résistances d'intégration. Les questions éthiques restent cependant ouvertes -- cloner une voix et un visage pour qu'une IA parle en votre nom en réunion soulève des enjeux de consentement, d'authenticité et de responsabilité qui n'ont pas encore de réponse réglementaire claire. La prochaine étape probable sera l'intégration avec d'autres plateformes de visioconférence comme Zoom ou Microsoft Teams.

UELa technologie de clonage vocal et d'avatar IA soulève des enjeux de consentement et d'authenticité non encadrés par l'AI Act européen, dont les dispositions sur les systèmes d'identification biométrique pourraient s'appliquer à ce type d'usage professionnel.

OutilsOutil
1 source
Gemini accelere l'acces aux ressources de sante mentale pour les utilisateurs en detresse
82The Verge AI 

Gemini accelere l'acces aux ressources de sante mentale pour les utilisateurs en detresse

Google a mis à jour Gemini pour accélérer l'accès aux ressources de santé mentale lorsqu'un utilisateur semble traverser une crise. Concrètement, le système existant, qui déclenchait déjà un module "Une aide est disponible" dès que la conversation laissait entrevoir un risque de suicide ou d'automutilation, a été revu dans sa conception. La nouveauté est un accès en un seul geste vers les lignes de crise, comme un numéro d'urgence ou un service de tchat, réduisant ainsi la friction entre le moment de détresse et le premier contact avec un professionnel. Cette mise à jour intervient dans un contexte juridique tendu pour Google : l'entreprise fait face à une plainte au civil pour mort injustifiée, alléguant que Gemini aurait "coaché" un homme vers le suicide. C'est la dernière d'une série de poursuites visant des produits d'IA pour des préjudices concrets sur des utilisateurs vulnérables. Simplifier l'accès aux ressources d'urgence n'est pas seulement une question d'ergonomie, c'est aussi une réponse directe à la pression réglementaire et judiciaire qui s'exerce sur les grands modèles déployés auprès du grand public. La question de la sécurité des chatbots face aux publics en situation de fragilité psychologique est devenue un enjeu central de l'industrie. Des affaires similaires ont visé Character.AI, dont le chatbot a été mis en cause dans des cas impliquant des mineurs. Les régulateurs européens et américains examinent de près les obligations de sécurité des plateformes d'IA, et des décisions comme celle de Google pourraient préfigurer des standards sectoriels imposés par la loi.

UELes régulateurs européens examinent les obligations de sécurité des plateformes IA grand public, et cette décision de Google pourrait préfigurer des standards sectoriels qui s'imposeront via l'AI Act ou d'autres législations européennes.

SécuritéOpinion
1 source
Passer de ChatGPT à Gemini sans repartir de zéro
83ZDNET AI 

Passer de ChatGPT à Gemini sans repartir de zéro

Google a lancé une fonctionnalité permettant aux utilisateurs de ChatGPT de migrer leur historique de conversations, leurs préférences et leurs souvenirs personnalisés directement vers Gemini, sans repartir de zéro. Concrètement, la procédure passe par les paramètres de Gemini, où une option d'importation permet de connecter son compte OpenAI et de transférer les données stockées, y compris les instructions personnalisées et les mémos que l'assistant avait mémorisés au fil du temps. Ce type de portabilité représente un changement significatif dans la manière dont les assistants IA cherchent à fidéliser ou à attirer des utilisateurs. Jusqu'ici, changer d'outil signifiait tout réapprendre à son assistant : habitudes de travail, ton préféré, contexte professionnel. En supprimant ce frein, Google abaisse concrètement le coût du changement pour les millions d'utilisateurs de ChatGPT, notamment les abonnés Plus qui ont construit une base de mémoire sur plusieurs mois. La bataille pour la rétention des utilisateurs d'IA s'intensifie alors qu'OpenAI, Google et Anthropic se disputent les mêmes professionnels et créateurs. Google avait déjà intégré Gemini dans Workspace, mais la portabilité des données personnalisées constitue un argument nouveau. Cette fonctionnalité pourrait aussi pousser OpenAI à proposer des options d'export plus complètes, et alimenter le débat réglementaire autour de l'interopérabilité des données entre plateformes d'IA.

UELa portabilité des données entre plateformes d'IA s'inscrit dans les débats réglementaires européens sur l'interopérabilité, notamment dans le cadre du Digital Markets Act et de l'AI Act.

💬 Google qui joue la carte de la portabilité, c'est un coup bien pensé. Ça fait des mois qu'on sait que la vraie valeur d'un assistant, c'est pas le modèle, c'est tout ce qu'on lui a appris sur nous. Reste à voir si les souvenirs importés survivent vraiment au transfert, ou si c'est juste un argument marketing pour faire parler d'un Gemini qui peine encore à convaincre sans béquilles.

OutilsOutil
1 source
Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !
84Le Big Data 

Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !

Apple prépare une transformation majeure de Siri avec iOS 27, prévu pour l'été 2026. Selon Mark Gurman, journaliste de Bloomberg et source fiable sur Apple depuis des années, l'entreprise développerait un système d'extensions permettant à n'importe quel chatbot disponible sur l'App Store de s'interfacer directement avec Siri. Concrètement, des assistants comme Claude d'Anthropic, Google Gemini ou d'autres IA tierces pourraient être sollicités via Siri comme intermédiaire : l'utilisateur précise quel modèle utiliser, et Siri relaie la requête. Cette ouverture marquerait la fin de l'exclusivité dont bénéficie actuellement ChatGPT d'OpenAI, intégré depuis iOS 18. Apple travaille depuis 2024 sur cette version refondue, parfois appelée Siri 2.0, qui inclurait également une application Siri dédiée, une interface repensée dans la Dynamic Island, et une fusion avec Spotlight Search. Pour les utilisateurs, l'impact serait considérable : Siri deviendrait un hub centralisé capable de mobiliser des dizaines de modèles spécialisés selon la tâche — analyse de documents, génération de contenu, planification, code. Plus besoin de jongler entre applications : un seul point d'entrée vocal donnerait accès à l'ensemble de l'écosystème IA disponible sur iPhone et iPad. Pour Apple, l'enjeu financier est tout aussi important : la firme prélèverait une commission sur les abonnements souscrits via l'App Store pour accéder aux IA tierces, transformant Siri en levier de monétisation de l'explosion des assistants intelligents. Cette stratégie permettrait à Apple de rivaliser directement avec Amazon Alexa, Microsoft Copilot et Meta AI, sans avoir à développer elle-même des modèles de pointe. Ce pivot s'inscrit dans un contexte délicat pour Apple sur le terrain de l'IA. L'entreprise a accumulé du retard face à Google, Microsoft et OpenAI, et Siri a longtemps été moqué pour ses limitations face à des concurrents bien plus capables. Le partenariat avec OpenAI, annoncé à la WWDC 2024, était une première réponse, mais insuffisante pour couvrir l'ensemble des usages. L'ouverture à tous les chatbots via un modèle d'extensions — similaire à ce qu'Apple a fait avec les widgets ou les extensions de clavier — serait une façon de contourner le problème sans avoir à choisir un seul gagnant. Des questions réglementaires se poseront inévitablement : l'acheminement de données personnelles vers de multiples fournisseurs d'IA soulève des enjeux de confidentialité que les autorités européennes notamment scruteront de près. Apple devra démontrer que cette ouverture reste compatible avec ses engagements en matière de protection des données, un pilier central de son image de marque.

UEL'acheminement de données personnelles vers de multiples fournisseurs d'IA via Siri soulève des questions de conformité RGPD que la CNIL et les autorités européennes devront examiner.

OutilsOpinion
1 source
Google lance une compétence d'agent dans l'API Gemini pour combler les lacunes des modèles IA sur leurs propres SDK
85The Decoder 

Google lance une compétence d'agent dans l'API Gemini pour combler les lacunes des modèles IA sur leurs propres SDK

Google a introduit une nouvelle fonctionnalité baptisée « Agent Skill » dans son API Gemini, conçue pour combler une lacune structurelle des modèles d'IA : leur ignorance des mises à jour de leurs propres SDK survenues après leur date d'entraînement. Ce mécanisme permet au modèle d'accéder dynamiquement à une documentation à jour sur ses propres outils, améliorant significativement la qualité du code généré pour les applications qui utilisent l'API Gemini. L'impact est concret pour les développeurs : un modèle qui ne connaît pas les dernières versions d'un SDK produit du code obsolète, bogué ou incompatible. En injectant automatiquement les bonnes références au moment de la génération, Google réduit les erreurs d'intégration et accélère le développement d'agents IA — un enjeu critique alors que l'écosystème évolue plusieurs fois par mois. Ce problème de « knowledge cutoff » est universel à tous les grands modèles de langage : ChatGPT, Claude et Gemini souffrent tous d'un décalage entre leur entraînement et l'état réel du monde. La réponse de Google illustre une tendance plus large — plutôt que d'attendre le prochain cycle d'entraînement, les éditeurs construisent des couches de récupération dynamique pour maintenir les modèles à jour en temps réel sur des domaines critiques comme leurs propres API.

UELes développeurs et entreprises françaises intégrant des agents IA dans leurs produits bénéficient directement d'une réduction des erreurs d'intégration liées au knowledge cutoff des SDK.

💬 C'est un problème que je rencontre toutes les semaines en intégrant des SDK qui bougent vite. Google répond d'une façon élégante : plutôt que d'attendre le prochain cycle d'entraînement, ils injectent la doc à jour directement au moment de la génération, ce qui évite les erreurs bêtes sur des méthodes dépréciées depuis trois mois. Reste à voir si ça scale quand tous les éditeurs adoptent cette logique, mais c'est clairement la bonne direction.

OutilsOutil
1 source
Gemini facilite le passage depuis ChatGPT : voici comment
86ZDNET AI 

Gemini facilite le passage depuis ChatGPT : voici comment

Google a annoncé que Gemini permet désormais aux utilisateurs d'importer leurs souvenirs, leur historique de conversations et leurs préférences depuis d'autres assistants IA comme ChatGPT. Cette fonctionnalité de migration, déployée en 2026, vise à éliminer l'un des principaux freins au changement de plateforme : la perte de tout le contexte accumulé avec un assistant au fil du temps. Concrètement, un utilisateur de ChatGPT qui a configuré ses préférences, alimenté sa mémoire personnalisée et accumulé des mois d'historique peut basculer vers Gemini sans repartir de zéro. C'est un changement significatif dans l'expérience utilisateur : jusqu'ici, changer d'assistant IA ressemblait à changer de téléphone sans pouvoir transférer ses données — une friction délibérée qui fidélisait les utilisateurs malgré eux. Cette initiative s'inscrit dans une guerre d'acquisition d'utilisateurs qui s'intensifie entre Google et OpenAI. Alors que ChatGPT reste le leader avec plusieurs centaines de millions d'utilisateurs actifs, Google mise sur l'intégration profonde de Gemini dans son écosystème (Android, Workspace, Search) et sur ce type de fonctionnalités pour convaincre les indécis de franchir le pas. La portabilité des données IA pourrait devenir un argument compétitif central en 2026, voire un terrain de régulation à venir.

UELa portabilité des données entre assistants IA pourrait devenir un terrain réglementaire en Europe, dans le cadre du DMA ou d'extensions futures de l'AI Act visant à garantir l'interopérabilité des plateformes numériques.

OutilsOutil
1 source
Gemini veut récupérer vos conversations issues de ChatGPT et Claude
87Blog du Modérateur 

Gemini veut récupérer vos conversations issues de ChatGPT et Claude

Google a lancé deux nouvelles fonctionnalités pour Gemini conçues explicitement pour attirer les utilisateurs de ChatGPT et Claude : un importateur de conversations et un outil de comparaison côte à côte. L'importateur permet de transférer l'historique de ses échanges depuis les assistants concurrents directement dans Gemini, tandis que le comparateur affiche en parallèle les réponses de Gemini et d'un autre modèle sur la même requête. Ces outils sont actuellement déployés aux États-Unis, mais restent indisponibles en France et dans l'Union européenne. Pour Google, l'enjeu est de réduire le coût du changement qui freine les utilisateurs à quitter un assistant IA pour un autre. L'historique de conversations représente une forme de fidélisation puissante — perdre ses échanges passés, ses contextes de travail, ses habitudes de prompt, c'est recommencer à zéro. En supprimant cette friction, Google espère convertir une partie des 400 millions d'utilisateurs hebdomadaires déclarés par OpenAI pour ChatGPT. Cette offensive intervient dans un contexte de guerre d'attrition entre les grands acteurs de l'IA grand public. OpenAI domine toujours le marché avec ChatGPT, Anthropic consolide Claude comme alternative premium, et Google cherche à capitaliser sur son intégration native dans Android, Search et Workspace pour imposer Gemini. L'absence de déploiement européen reflète probablement des contraintes liées au RGPD, notamment sur le transfert et le traitement des données personnelles issues de services tiers — un obstacle réglementaire qui pourrait retarder l'arrivée de ces fonctionnalités en France.

UELes fonctionnalités d'importation de conversations et de comparaison ne sont pas disponibles en France ni dans l'UE, probablement bloquées par le RGPD sur le transfert de données personnelles issues de services tiers concurrents.

OutilsOutil
1 source
La fonctionnalité iPhone que vous attendez depuis 2024 arriverait enfin (une bonne nouvelle pour Gemini, Claude et Perplexity)
88Presse-citron 

La fonctionnalité iPhone que vous attendez depuis 2024 arriverait enfin (une bonne nouvelle pour Gemini, Claude et Perplexity)

Apple s'apprêterait à ouvrir Siri à d'autres assistants IA que ChatGPT avec la sortie d'iOS 27, dont la présentation est prévue en juin 2026. Selon les informations disponibles, des services comme Google Gemini, Claude d'Anthropic et Perplexity pourraient bénéficier de la même intégration native qu'OpenAI dans l'interface de Siri sur les appareils compatibles avec Apple Intelligence. Cette ouverture représente un changement majeur pour les utilisateurs d'iPhone qui souhaitent utiliser un assistant IA différent de ChatGPT sans quitter l'écosystème Apple. Concrètement, cela signifierait un accès rapide à ces modèles directement depuis Siri, sans avoir à basculer vers une application tierce — un avantage d'usage considérable qui pourrait redistribuer les parts d'attention entre les grands acteurs de l'IA conversationnelle sur mobile. Jusqu'ici, Apple avait accordé un accès privilégié et exclusif à OpenAI dans le cadre d'un partenariat annoncé lors de la WWDC 2024. L'extension de ce dispositif à des concurrents comme Google ou Anthropic reflète probablement des pressions réglementaires autour de l'interopérabilité, mais aussi la volonté d'Apple de ne pas apparaître comme favorisant un seul acteur. Les détails de ces intégrations — et leur profondeur technique — devraient être dévoilés à la WWDC de juin 2026.

UEL'ouverture de Siri à plusieurs assistants IA s'inscrit probablement dans le cadre des pressions réglementaires européennes liées au DMA, qui impose l'interopérabilité aux gatekeepers, et bénéficierait directement aux utilisateurs d'iPhone en Europe.

OutilsOpinion
1 source
Claude, ChatGPT, Gemini ou Perplexity : Apple pourrait vous laisser choisir votre IA préférée
89Frandroid 

Claude, ChatGPT, Gemini ou Perplexity : Apple pourrait vous laisser choisir votre IA préférée

Apple envisage de transformer Siri en une interface ouverte permettant aux utilisateurs de choisir leur assistant IA préféré parmi les grandes plateformes disponibles sur le marché — Claude d'Anthropic, ChatGPT d'OpenAI, Gemini de Google ou encore Perplexity. Cette évolution représenterait un changement majeur dans la stratégie IA d'Apple, qui cherche à combler son retard face à des concurrents bien installés dans l'usage quotidien des consommateurs. Pour les utilisateurs d'iPhone et d'iPad, cette ouverture signifierait la possibilité de piloter leur IA de prédilection directement depuis Siri, sans quitter l'écosystème Apple. Concrètement, un utilisateur abonné à Claude ou habitué à ChatGPT pourrait continuer à utiliser son modèle favori via les interactions vocales et les raccourcis système d'iOS. Cela repositionnerait Siri non plus comme un assistant en compétition directe, mais comme une couche d'orchestration — ce qui pourrait séduire des millions d'utilisateurs frustrés par les limites actuelles de l'assistant natif. Apple a déjà amorcé cette direction avec l'intégration de ChatGPT dans iOS 18 via Apple Intelligence, annoncée à la WWDC 2024. Cette première alliance avec OpenAI avait marqué une rupture dans la posture historiquement fermée d'Apple. Élargir ce modèle à d'autres acteurs s'inscrirait dans une logique de neutralité compétitive, tout en évitant de dépendre d'un seul partenaire. La question reste entière quant aux conditions d'accès, aux données partagées et au calendrier de déploiement d'une telle fonctionnalité.

UELes millions d'utilisateurs d'iPhone en France pourraient bientôt piloter leur assistant IA favori directement via Siri, transformant l'usage quotidien pour les abonnés européens à Claude, ChatGPT ou Gemini.

OutilsOutil
1 source
Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA
90MarkTechPost 

Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA

Google a lancé Gemini 3.1 Flash Live en préversion pour les développeurs via la Gemini Live API dans Google AI Studio. Ce nouveau modèle se positionne comme le « modèle audio et vocal de la plus haute qualité » jamais produit par Google, capable de traiter en temps réel des flux multimodaux combinant voix, vidéo et appels d'outils. Concrètement, il accepte de l'audio PCM 16 bits à 16 kHz, renvoie de l'audio PCM natif sans passer par une synthèse vocale séparée, et peut ingérer des flux vidéo à environ une image par seconde. Sur le benchmark ComplexFuncBench Audio, qui mesure la capacité à enchaîner des appels de fonctions complexes à partir de la seule voix, le modèle atteint un score de 90,8 %. Il obtient également 36,1 % sur l'Audio MultiChallenge, un test mesurant la résistance aux interruptions et aux environnements bruités, thème central pour les cas d'usage réels. Ce lancement s'attaque à un problème structurel qui plombait jusque-là les assistants vocaux : la « pile d'attente », enchaînement séquentiel de la détection d'activité vocale, de la transcription, de la génération de texte et de la synthèse vocale. Gemini 3.1 Flash Live court-circuite cette chaîne en traitant l'acoustique directement, sans transcrire au préalable. Le modèle gère mieux la prosodie — ton, débit, hésitations — que son prédécesseur Gemini 2.5 Flash Native Audio, et discrimine la parole pertinente des bruits ambiants comme la circulation ou le brouhaha d'un bureau. L'interface de programmation repose sur un protocole WebSocket bidirectionnel et persistant, permettant la continuité de session, la synchronisation audio-transcription en un seul événement serveur, et le « barge-in » : l'utilisateur peut couper la parole à l'IA en plein milieu d'une phrase, et le modèle interrompt immédiatement sa génération pour traiter le nouvel énoncé. Une fenêtre de contexte de 128 000 tokens supporte la mémoire de session et les définitions d'outils. Ce modèle arrive dans un contexte de compétition intense entre Google, OpenAI et les startups spécialisées dans la voix temps réel. OpenAI avait ouvert la voie avec son mode vocal avancé dans GPT-4o, mais la fiabilité en environnements dégradés restait un talon d'Achille pour l'ensemble de l'industrie. Google mise ici sur la robustesse au bruit et sur l'inférence agentique — la capacité à raisonner et à exécuter des tâches complexes (retrouver des factures, envoyer des e-mails sous conditions) sans passer par un intermédiaire textuel. Pour les développeurs qui construisent des agents d'assistance client, des interfaces mobiles ou des outils professionnels à commande vocale, cette combinaison de faible latence, de multimodalité native et de raisonnement structuré représente un changement de catégorie. Les prochaines étapes attendues concernent la sortie en disponibilité générale et l'intégration dans l'écosystème Vertex AI pour les entreprises.

UELes développeurs européens peuvent accéder dès maintenant à l'API en préversion via Google AI Studio pour construire des agents vocaux, sans impact réglementaire ou institutionnel spécifique à la France/UE.

LLMsActu
1 source
ChatGPT et Claude : Gemini veut devenir votre IA principale en aspirant la mémoire des autres
91Frandroid 

ChatGPT et Claude : Gemini veut devenir votre IA principale en aspirant la mémoire des autres

Google a lancé une nouvelle fonctionnalité pour Gemini permettant aux utilisateurs d'importer leurs mémoires et préférences depuis d'autres chatbots, notamment ChatGPT d'OpenAI et Claude d'Anthropic. Concrètement, l'outil récupère l'historique de personnalisation — préférences de ton, informations personnelles, habitudes de travail — accumulé dans ces assistants concurrents, et les transfère en quelques clics vers Gemini. La fonctionnalité est déployée progressivement auprès des utilisateurs via l'interface web et mobile de Gemini. L'enjeu est considérable : la mémoire personnalisée est devenue l'un des principaux facteurs de rétention dans la guerre des chatbots. Un utilisateur qui a passé des mois à "éduquer" ChatGPT sur ses préférences hésite à tout recommencer à zéro ailleurs. En supprimant cette friction, Google retire le principal obstacle qui empêche les utilisateurs de migrer. Pour les professionnels et les utilisateurs intensifs, c'est un signal fort : Gemini veut devenir l'IA centrale du quotidien, et non plus un outil secondaire. Cette manœuvre s'inscrit dans une bataille de parts de marché où ChatGPT reste dominant malgré la montée en puissance de Claude et Gemini. Google a fortement investi dans Gemini depuis 2023, intégrant le modèle dans l'ensemble de son écosystème (Gmail, Docs, Android). L'importation de mémoire est une tactique d'acquisition directe, similaire à ce que font les banques ou opérateurs téléphoniques pour faciliter la portabilité — sauf qu'ici, c'est Google qui fixe les règles du jeu sur sa propre plateforme.

UELes utilisateurs européens de Gemini peuvent désormais importer leurs préférences depuis ChatGPT ou Claude, réduisant la friction de migration vers l'écosystème Google sur le marché européen des assistants IA.

OutilsOutil
1 source
Apple peut « distiller » le grand modèle Gemini de Google
92The Information AI 

Apple peut « distiller » le grand modèle Gemini de Google

Apple et Google ont conclu un accord de partenariat IA bien plus profond qu'il n'y paraissait. Au-delà du simple ajustement (fine-tuning) du modèle Gemini, Apple dispose d'un accès complet au modèle dans ses propres infrastructures de data centers. Cet accès permet à Apple de produire des modèles plus petits, optimisés pour des tâches spécifiques ou suffisamment légers pour tourner directement sur les appareils Apple — une technique appelée « distillation ». Cela change considérablement la donne pour Siri et les fonctionnalités IA promises depuis longtemps. En exécutant des modèles distillés localement, Apple gagne en vitesse de traitement et en confidentialité, deux avantages cruciaux pour sa clientèle. La dépendance aux serveurs distants diminue, ce qui réduit aussi les coûts d'infrastructure — un enjeu d'autant plus pressant que les capacités serveur sont actuellement en tension dans tout le secteur. En parallèle, OpenAI traverse sa propre restructuration : son PDG Sam Altman vient de réorganiser l'entreprise, lancé un nouveau modèle baptisé « Spud » et mis fin à l'application vidéo Sora — jugée trop gourmande en serveurs dans le cadre d'une stratégie de recentrage sur les produits prioritaires.

LLMsOpinion
1 source
Google Gemini prend de l'avance sur OpenAI
93The Information AI 

Google Gemini prend de l'avance sur OpenAI

Google a discrètement lancé une fonctionnalité d'agent IA dans son app Gemini, permettant aux utilisateurs de Pixel et Samsung de commander un Uber ou un repas via DoorDash directement depuis l'application. Cette capacité d'automatisation de tâches, annoncée sans grand tapage le mois dernier, fonctionne déjà concrètement — contrairement à ChatGPT d'OpenAI qui ne propose pas encore l'équivalent. Google marque ainsi un point dans la course aux agents IA véritablement opérationnels.

OutilsOutil
1 source
L'automatisation des tâches par Gemini est lente, maladroite et vraiment impressionnante
94The Verge AI 

L'automatisation des tâches par Gemini est lente, maladroite et vraiment impressionnante

Gemini dispose désormais d'une fonctionnalité d'automatisation des tâches sur le Pixel 10 Pro et le Galaxy S26 Ultra, permettant à l'IA de contrôler des applications à la place de l'utilisateur. Encore en bêta et limitée à quelques services de livraison et de transport, elle reste lente et imparfaite. Malgré ces limitations, c'est la première démonstration convaincante d'un véritable assistant IA opérationnel sur smartphone, offrant un aperçu concret de ce que sera l'avenir.

OutilsOutil
1 source
Google n'exclut pas la publicité dans Gemini
95Wired AI 

Google n'exclut pas la publicité dans Gemini

Google n'exclut pas l'intégration de publicités dans son assistant IA Gemini. Nick Fox, vice-président senior de la connaissance et de l'information chez Google, a évoqué avec WIRED la transformation du modèle publicitaire de l'entreprise face à l'essor de l'IA. La question de la monétisation de Gemini reste ouverte, signalant une évolution potentielle majeure pour le secteur de la publicité en ligne.

BusinessActu
1 source
L'automatisation des tâches par Gemini est là, et c'est bluffant
96The Verge AI 

L'automatisation des tâches par Gemini est là, et c'est bluffant

Google et Samsung lancent en bêta une fonctionnalité d'automatisation de tâches via Gemini sur le Galaxy S26 Ultra, permettant à l'IA d'utiliser des applications (livraison de repas, VTC) de façon autonome dans une fenêtre virtuelle. Activée par de simples instructions texte, elle prend en charge des actions comme commander un repas ou réserver un trajet. La démonstration en conditions réelles donne une impression déconcertante de voir son téléphone "s'utiliser tout seul".

OutilsActu
1 source
ChatGPT reste en tête du marché des chatbots mais sa domination s'érode face à la montée en puissance de Gemini de Google
97The Decoder 

ChatGPT reste en tête du marché des chatbots mais sa domination s'érode face à la montée en puissance de Gemini de Google

ChatGPT reste le leader du marché des chatbots, mais sa domination s'érode : sa part de marché est passée de 75,7 % à 61,7 % en seulement douze mois, selon Similarweb. Le grand gagnant est Google Gemini, qui a quadruplé sa part de marché, passant de 5,7 % à 24,4 % sur la même période.

BusinessActu
1 source
Google Chrome : Gemini parle français mais pas en France
Google Workspace : Gemini peut désormais générer des documents, tableaux et présentations
99Blog du Modérateur 

Google Workspace : Gemini peut désormais générer des documents, tableaux et présentations

Gemini s'intègre plus profondément dans Google Workspace avec de nouvelles fonctionnalités bêta dans Docs, Sheets, Slides et Drive. Ces nouvelles capacités permettent à l'IA de générer des documents, tableaux et présentations. Elles sont actuellement réservées aux abonnés Google AI Ultra et Pro.

UELes entreprises et utilisateurs français abonnés à Google Workspace AI Ultra ou Pro bénéficient de nouvelles capacités de génération automatique de documents, tableaux et présentations directement dans leurs outils de productivité.

OutilsOutil
1 source
Utiliser l’IA de traduction pour optimiser son site pour les moteurs IA (ChatGPT, Gemini…) : Top 4 des meilleurs outils
100Le Big Data 

Utiliser l’IA de traduction pour optimiser son site pour les moteurs IA (ChatGPT, Gemini…) : Top 4 des meilleurs outils

La traduction multilingue de sites web est désormais un levier clé pour la visibilité dans les IA génératives (ChatGPT, Gemini, Claude) : plus une marque est citée dans des contextes linguistiques variés, plus son "poids sémantique" augmente dans les LLMs. Un site traduit et correctement indexé peut voir sa visibilité dans les réponses IA augmenter de plus de 300 %, selon l'article. Parmi les outils recommandés, Weglot s'impose comme la référence grâce à sa gestion automatisée de la traduction et de l'indexation technique (hreflang), devant des alternatives comme TranslatePress, Lokalise et Crowdin.

UEL'entreprise française Weglot s'impose comme la référence mondiale de la traduction multilingue pour le SEO générique, offrant aux sites européens un avantage concurrentiel direct pour gagner en visibilité dans les réponses des IA génératives.

OutilsOutil
1 source