Aller au contenu principal
Google annonce Gemini 3.5 Live Translate pour la traduction vocale en temps réel
LLMsArs Technica AI4h

Google annonce Gemini 3.5 Live Translate pour la traduction vocale en temps réel

Résumé IASources croisées · 2Impact UE
Source originale ↗·
Egalement couvert par :The Decoder

Google a annoncé Gemini 3.5 Live Translate, un nouveau modèle d'intelligence artificielle dédié à la traduction vocale instantanée, disponible dans plus de 70 langues. Ce modèle speech-to-speech fait partie de la famille Gemini 3.5 lancée lors de Google I/O, dont seule la version Flash avait jusqu'ici été déployée. La version Live Translate se distingue par une latence très faible, capable de suivre une conversation naturelle avec seulement quelques secondes de décalage, tout en reproduisant l'intonation, le rythme et la tonalité de la voix d'origine plutôt qu'une synthèse vocale générique.

L'impact est significatif pour quiconque communique régulièrement dans des langues différentes, que ce soit dans un cadre professionnel, lors de voyages ou dans des contextes médicaux ou juridiques. En s'affranchissant de la nécessité d'avoir un téléphone Pixel ou des écouteurs spécifiques, Google ouvre cette capacité à un public beaucoup plus large. La fidélité vocale, qui préserve les caractéristiques personnelles de la voix du locuteur, représente un saut qualitatif par rapport aux solutions robotiques actuelles, rendant les échanges traduits plus naturels et plus dignes de confiance.

Google travaille sur la traduction en temps réel depuis plusieurs années, avec des démonstrations publiques récurrentes lors de ses événements annuels, mais les contraintes matérielles en limitaient l'accès. L'an dernier, la traduction en direct avait été étendue à l'application Google Translate, mais Gemini 3.5 Live Translate marque une nouvelle étape en intégrant cette capacité directement dans un modèle de la série 3.5. Une version Pro de Gemini 3.5 est attendue dans les prochaines semaines, ce qui laisse entrevoir des performances encore supérieures. La course à la traduction universelle s'intensifie, avec des concurrents comme Meta et Microsoft qui investissent également dans ce domaine, faisant de la barrière des langues l'un des prochains grands défis résolus par l'IA.

Impact France/UE

La disponibilité de Gemini 3.5 Live Translate dans plus de 70 langues dont le français facilite la communication multilingue pour les professionnels et entreprises européens sans contrainte matérielle.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google lance Gemini 3.5 Live Translate, un modèle audio voix-à-voix en temps réel couvrant plus de 70 langues
1MarkTechPost 

Google lance Gemini 3.5 Live Translate, un modèle audio voix-à-voix en temps réel couvrant plus de 70 langues

Google a lancé Gemini 3.5 Live Translate, un nouveau modèle audio capable de traduire la parole en temps réel dans plus de 70 langues. Disponible sous l'identifiant gemini-3.5-live-translate-preview, il fonctionne en mode speech-to-speech : de l'audio parlé entre, de l'audio traduit sort, avec une latence de quelques secondes seulement. Contrairement aux systèmes classiques qui attendent la fin d'une phrase pour commencer à traduire, ce modèle traite le flux audio en continu, au fil de la parole. Il préserve l'intonation, le rythme et la hauteur de voix du locuteur dans la version traduite. Le déploiement s'effectue sur trois surfaces simultanément : les développeurs y accèdent via une préversion publique dans la Gemini Live API et Google AI Studio, les entreprises via une préversion privée dans Google Meet à partir de ce mois-ci, et le grand public via l'application Google Traduction sur Android et iOS. Ce modèle représente une rupture technique significative pour tous les secteurs qui dépendent de la communication multilingue en direct. Lors d'appels professionnels, de réunions internationales, de cours en ligne ou de diffusions live, la barrière de la langue peut être levée sans infrastructure dédiée ni interprète humain. Des plateformes comme Agora, LiveKit, Pipecat et Fishjam intègrent déjà la Live API, ce qui réduit considérablement le travail d'intégration pour les développeurs. L'exemple concret le plus parlant vient de Grab, le géant asiatique du transport à la demande : la société teste activement le modèle pour les échanges entre chauffeurs et passagers au moment de la prise en charge, sachant que ses utilisateurs passent plus de 10 millions d'appels vocaux. Cette annonce s'inscrit dans la stratégie de Google visant à imposer sa suite Gemini comme infrastructure de référence pour l'IA temps réel. Techniquement, le modèle ne fonctionne qu'en entrée audio, sans prise en charge du texte, sans appel d'outils ni instructions système, ce qui le distingue radicalement des agents conversationnels classiques. La configuration s'effectue via un bloc translationConfig dans la Gemini Live API, avec un paramètre targetLanguageCode au format BCP-47 et une option echoTargetLanguage pour gérer les cas où le locuteur parle déjà la langue cible. Les formats audio sont fixes : entrée en PCM 16 bits à 16 kHz, sortie à 24 kHz. Ce choix de spécialisation radicale, au détriment de la flexibilité, témoigne d'une priorité claire donnée à la latence et à la fiabilité, deux critères décisifs pour les usages professionnels et grand public en conditions réelles.

UELa prise en charge de plus de 70 langues dont les principales langues européennes permet aux entreprises du marché unique d'intégrer la traduction temps réel dans Google Meet et via API sans infrastructure dédiée, réduisant les barrières linguistiques dans les communications professionnelles transfrontalières.

LLMsOpinion
1 source
Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA
2MarkTechPost 

Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA

Google a lancé Gemini 3.1 Flash Live en préversion pour les développeurs via la Gemini Live API dans Google AI Studio. Ce nouveau modèle se positionne comme le « modèle audio et vocal de la plus haute qualité » jamais produit par Google, capable de traiter en temps réel des flux multimodaux combinant voix, vidéo et appels d'outils. Concrètement, il accepte de l'audio PCM 16 bits à 16 kHz, renvoie de l'audio PCM natif sans passer par une synthèse vocale séparée, et peut ingérer des flux vidéo à environ une image par seconde. Sur le benchmark ComplexFuncBench Audio, qui mesure la capacité à enchaîner des appels de fonctions complexes à partir de la seule voix, le modèle atteint un score de 90,8 %. Il obtient également 36,1 % sur l'Audio MultiChallenge, un test mesurant la résistance aux interruptions et aux environnements bruités, thème central pour les cas d'usage réels. Ce lancement s'attaque à un problème structurel qui plombait jusque-là les assistants vocaux : la « pile d'attente », enchaînement séquentiel de la détection d'activité vocale, de la transcription, de la génération de texte et de la synthèse vocale. Gemini 3.1 Flash Live court-circuite cette chaîne en traitant l'acoustique directement, sans transcrire au préalable. Le modèle gère mieux la prosodie — ton, débit, hésitations — que son prédécesseur Gemini 2.5 Flash Native Audio, et discrimine la parole pertinente des bruits ambiants comme la circulation ou le brouhaha d'un bureau. L'interface de programmation repose sur un protocole WebSocket bidirectionnel et persistant, permettant la continuité de session, la synchronisation audio-transcription en un seul événement serveur, et le « barge-in » : l'utilisateur peut couper la parole à l'IA en plein milieu d'une phrase, et le modèle interrompt immédiatement sa génération pour traiter le nouvel énoncé. Une fenêtre de contexte de 128 000 tokens supporte la mémoire de session et les définitions d'outils. Ce modèle arrive dans un contexte de compétition intense entre Google, OpenAI et les startups spécialisées dans la voix temps réel. OpenAI avait ouvert la voie avec son mode vocal avancé dans GPT-4o, mais la fiabilité en environnements dégradés restait un talon d'Achille pour l'ensemble de l'industrie. Google mise ici sur la robustesse au bruit et sur l'inférence agentique — la capacité à raisonner et à exécuter des tâches complexes (retrouver des factures, envoyer des e-mails sous conditions) sans passer par un intermédiaire textuel. Pour les développeurs qui construisent des agents d'assistance client, des interfaces mobiles ou des outils professionnels à commande vocale, cette combinaison de faible latence, de multimodalité native et de raisonnement structuré représente un changement de catégorie. Les prochaines étapes attendues concernent la sortie en disponibilité générale et l'intégration dans l'écosystème Vertex AI pour les entreprises.

UELes développeurs européens peuvent accéder dès maintenant à l'API en préversion via Google AI Studio pour construire des agents vocaux, sans impact réglementaire ou institutionnel spécifique à la France/UE.

LLMsActu
1 source
GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe
3Latent Space 

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe

OpenAI a lancé le 6 mai 2026 trois nouveaux modèles audio dans son API Realtime : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Le modèle phare, GPT-Realtime-2, affiche une progression de 15,2 % sur le benchmark Big Bench Audio, contre seulement 5 % pour le realtime-1.5 sorti il y a trois mois. OpenAI le présente comme son "modèle vocal le plus intelligent à ce jour", intégrant un raisonnement comparable à GPT-5 en temps réel. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, avec jusqu'à 32 000 tokens en sortie. GPT-Realtime-Translate prend en charge la traduction simultanée depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper offre une transcription en streaming à faible latence pour les sous-titres et la prise de notes. Les trois modèles sont disponibles immédiatement dans l'API Realtime pour les développeurs ; les améliorations dans ChatGPT voice sont annoncées mais non encore déployées. L'enjeu de cette version dépasse la qualité audio : OpenAI mise sur l'utilisabilité des agents vocaux en production. GPT-Realtime-2 permet des appels d'outils en parallèle avec des confirmations verbales ("je vérifie votre calendrier"), des préambules naturels ("un instant, je cherche ça"), et une meilleure gestion des interruptions. Il peut aussi adapter son ton, calme, empathique ou dynamique, selon le contexte, et les développeurs peuvent désormais régler le niveau de raisonnement sur cinq paliers allant de "minimal" à "xhigh". Pour les entreprises qui déploient des agents vocaux dans la santé, le service client ou les assistants professionnels, ce gain de fluidité et de robustesse représente un saut concret vers des systèmes déployables sans supervision constante. Cette sortie s'inscrit dans une course effrénée pour dominer les interfaces vocales de l'IA. OpenAI avait lancé son API Realtime en septembre 2024, mais les premières versions peinaient à convaincre par leur manque de fiabilité et leur contexte limité. La progression rapide des trois derniers mois signale une priorité stratégique claire : Sam Altman a lui-même souligné que les utilisateurs recourent de plus en plus à la voix pour "déverser" de grandes quantités de contexte à l'IA, un usage que les interfaces texte peinent à absorber naturellement. Face à Google, qui pousse ses propres modèles Gemini Live, et à des acteurs spécialisés comme ElevenLabs, OpenAI cherche à verrouiller le segment des agents vocaux professionnels avant que le marché ne se fragmente.

UELes développeurs et entreprises européennes déployant des agents vocaux (santé, service client, assistants professionnels) peuvent immédiatement accéder aux nouvelles capacités via l'API Realtime, avec un support multilingue étendu à plus de 70 langues dont le français.

💬 L'API Realtime de septembre 2024, franchement, ça peinait. Là, les préambules naturels, les interruptions gérées, les appels d'outils en parallèle avec confirmation verbale, tout ce qui rend un agent vocal déployable sans supervision constante, c'est enfin dans la boîte. C'est le genre de liste de features qui fait passer de la démo au vrai prod.

LLMsOpinion
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
4MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour