Dossier Gemini

288 articles

Gemini, la famille de modèles de Google DeepMind : sorties Flash et Pro, intégration Apple/Siri, agents Robotics ER, capacités vocales temps réel.

OpenAI Anthropic Claude Mythos Claude Opus Claude Code GPT-5.5 GPT-5 DeepSeek DeepSeek V4 Mistral AI Meta IA Apple Intelligence Tous les dossiers →

1MarkTechPost LLMsActu

xAI lance grok-voice-think-fast-1.0, en tête du benchmark τ-voice à 67,3 %, devant Gemini et GPT Realtime

xAI a lancé grok-voice-think-fast-1.0, son nouveau modèle de voix phare, disponible via l'API xAI. Ce modèle s'impose en tête du classement τ-voice Bench avec un score de 67,3 %, devançant largement ses concurrents directs : Gemini 3.1 Flash Live atteint 43,8 %, GPT Realtime 1.5 de OpenAI 35,3 %, et même la précédente version maison, Grok Voice Fast 1.0, ne dépasse pas 38,3 %. Les écarts sont encore plus marqués par secteur : en télécom, domaine couvrant les litiges de facturation et le support technique, grok-voice-think-fast-1.0 atteint 73,7 % contre 21,9 % pour Gemini et 21,1 % pour GPT Realtime 1.5, soit plus de 33 points d'avance. Dans le commerce de détail, il score 62,3 %, contre 44,7 % pour Gemini. Dans le secteur aérien, il atteint 66 %, contre 40 % pour Gemini. Le modèle est déjà déployé en production chez Starlink pour alimenter ses opérations téléphoniques en direct. Ces chiffres sont significatifs parce que le τ-voice Bench évalue les agents vocaux dans des conditions réalistes : bruit de fond, accents, interruptions et prises de parole naturelles, là où la plupart des benchmarks historiques utilisent de l'audio propre et non représentatif des usages réels. Ce qui distingue fondamentalement le modèle est sa nature full-duplex : il traite la parole entrante et génère ses réponses simultanément, comme le font les humains, sans attendre que l'interlocuteur ait fini sa phrase. Cette capacité rend la gestion des interruptions techniquement très complexe : le modèle doit décider en temps réel si une intervention à mi-phrase est une correction, une précision ou simplement un mot de remplissage. Autre avancée majeure : le raisonnement s'effectue en arrière-plan, ce qui permet au modèle de traiter des requêtes complexes sans allonger le temps de réponse perçu par l'utilisateur, un problème structurel des modèles de raisonnement classiques. La course aux agents vocaux de production s'est intensifiée depuis que Google a lancé Gemini Live et qu'OpenAI a déployé son API Realtime, deux systèmes qui avaient eux-mêmes marqué un saut par rapport aux architectures pipeline en cascade traditionnelles. xAI, fondé par Elon Musk en 2023, entre dans ce segment avec une approche explicitement orientée entreprise, ciblant le support client, la vente et les workflows en plusieurs étapes où les erreurs coûtent cher. Le déploiement chez Starlink constitue un test grandeur nature à grande échelle, ce qui renforce la crédibilité des benchmarks publiés. La disponibilité via API ouvre la voie à une intégration rapide dans des centres d'appel et des plateformes SaaS, un marché évalué à plusieurs dizaines de milliards de dollars et encore dominé par des solutions reposant sur des pipelines STT/LLM/TTS fragmentés.

UELes centres d'appel et plateformes SaaS européens peuvent intégrer ce modèle via API pour moderniser leurs pipelines vocaux fragmentés, mais aucune entreprise ou réglementation française ou européenne n'est directement impliquée.

Dossier Gemini

xAI lance grok-voice-think-fast-1.0, en tête du benchmark τ-voice à 67,3 %, devant Gemini et GPT Realtime

Gemini Enterprise : Google lance sa plateforme unifiée pour orchestrer des agents IA

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

Google révolutionne la maison connectée : Gemini devient vraiment naturel

☕️ Google : 1,6 milliard de publicités frauduleuses supprimées dans l’UE avec Gemini

Gemini peut désormais accéder à Google Photos pour générer des images personnalisées

Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini

Google lance une application Gemini AI sur Mac

Gemini 3.1 Flash TTS : prenez les commandes de l’émotion grâce aux balises audio

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser

Google lance les "Skills" dans Chrome pour rendre les invites Gemini instantanément réutilisables

Impôts 2026 : pourquoi utiliser ChatGPT ou Gemini pour sa déclaration est dangereux

Bilan IA Mars 2026 : GPT-5.4, Claude Mythos, Gemini 3.1 et la révolution des agents

Google Gemini peut désormais répondre à vos questions avec des modèles 3D et des simulations

Gemini intègre des carnets de notes pour organiser vos projets

Fin de GPT-5.4 et Gemini 3.1 ? Meta mise tout sur Muse Spark

ChatGPT, Gemini, Claude… Pika donne un visage (et une voix) à toutes vos IA !

Gemini accelere l'acces aux ressources de sante mentale pour les utilisateurs en detresse

Passer de ChatGPT à Gemini sans repartir de zéro

ChatGPT, Claude, Grok… comment transférer tous vos chats sur Gemini ?

ChatGPT perd du terrain, le trafic web provenant de Gemini a bondi de 115%

Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !

Google lance une compétence d'agent dans l'API Gemini pour combler les lacunes des modèles IA sur leurs propres SDK

Actualité : ChatGPT, Claude, Gemini : les IA mentent délibérément, un phénomène documenté

Gemini facilite le passage depuis ChatGPT : voici comment

Gemini veut récupérer vos conversations issues de ChatGPT et Claude

iOS 27 : Apple va ouvrir Siri à ChatGPT, Claude, Gemini et aux IA tierces

La fonctionnalité iPhone que vous attendez depuis 2024 arriverait enfin (une bonne nouvelle pour Gemini, Claude et Perplexity)

Claude, ChatGPT, Gemini ou Perplexity : Apple pourrait vous laisser choisir votre IA préférée

Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA

ChatGPT et Claude : Gemini veut devenir votre IA principale en aspirant la mémoire des autres

Gemini permet désormais d'importer vos conversations et données depuis d'autres chatbots

Google facilite l'importation de la mémoire d'une autre IA dans Gemini

Apple obtient un accès complet à Gemini et utilise la distillation pour créer une IA légère embarquée

Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot

Apple peut « distiller » le grand modèle Gemini de Google

ChatGPT et Gemini se disputent le titre de meilleur assistant IA pour le commerce en ligne

Google Gemini prend de l'avance sur OpenAI

Jailbreak IA 2026 : les techniques les plus efficaces sur Grok, Claude, Gemini, ChatGPT et DeepSeek

L'automatisation des tâches par Gemini est lente, maladroite et vraiment impressionnante

Google n'exclut pas la publicité dans Gemini

L'automatisation des tâches par Gemini est là, et c'est bluffant

ChatGPT reste en tête du marché des chatbots mais sa domination s'érode face à la montée en puissance de Gemini de Google

Google unifie texte, image, vidéo et audio dans un espace vectoriel unique avec Gemini Embedding 2

ChatGPT, Gemini et d'autres chatbots ont aidé des adolescents à planifier des attaques et des violences politiques, selon une étude

Google Chrome : Gemini parle français mais pas en France

Google Workspace : Gemini peut désormais générer des documents, tableaux et présentations

Utiliser l’IA de traduction pour optimiser son site pour les moteurs IA (ChatGPT, Gemini…) : Top 4 des meilleurs outils

WordPress lance 3 plugins officiels pour intégrer Claude, Gemini et ChatGPT