OutilsLe Big Data · 11 juin 2026, 12:05· 2 min de lecture

Gemini 3.5 Translate va faire tomber la barrière des langues

Résumé IASource uniqueImpact UE Take éditorial

Google a dévoilé le 9 juin 2026 Gemini 3.5 Translate, aussi appelé Gemini 3.5 Live Translate, un modèle audio capable de traduire des conversations orales en temps réel dans plus de 70 langues et plus de 2 000 combinaisons linguistiques. Contrairement aux systèmes précédents qui attendaient la fin d'une phrase complète avant de produire une traduction, ce nouveau modèle écoute, traite et restitue le flux audio en continu, avec un décalage de quelques secondes seulement. L'outil est déployé dans Google Traduction sur Android et iOS, dans Google Meet, et accessible aux développeurs via l'API Gemini Live. Google affirme également que le modèle conserve l'intonation, le rythme et la hauteur de voix du locuteur original, ce qui doit rendre la traduction moins mécanique. La technologie intègre aussi SynthID, un filigrane numérique embarqué dans le signal audio pour identifier les contenus générés par IA. La détection automatique des langues évite à l'utilisateur de changer manuellement les réglages lorsqu'un interlocuteur passe d'une langue à une autre.

L'enjeu dépasse largement la conversation touristique. Pour les entreprises opérant à l'international, Gemini 3.5 Translate ouvre la possibilité de réunions multilingues sans interprète externe, sans sous-titres approximatifs et sans anglais comme langue pivot imposée. Google Meet bénéficiait déjà d'une traduction partielle, mais le système restait très dépendant de l'anglais comme langue intermédiaire ; le passage à plus de 2 000 paires directes représente un changement d'architecture significatif. Pour les développeurs, l'accès via l'API Gemini Live signifie que cette capacité peut s'intégrer dans des applications de mobilité, des services clients automatisés ou des plateformes de communication, ce qui élargit considérablement l'usage potentiel au-delà des produits Google eux-mêmes.

La traduction en temps réel est un problème que l'industrie technologique tente de résoudre depuis des décennies, mais les systèmes actuels peinent encore dans les conditions réelles : bruits ambiants, accents marqués, expressions idiomatiques, locuteurs multiples. Google assure avoir entraîné Gemini 3.5 Translate spécifiquement sur ces scénarios difficiles, mais les démonstrations en conditions contrôlées restent insuffisantes pour valider la promesse. L'intégration de SynthID révèle par ailleurs une tension inhérente à la technologie : un modèle capable de reproduire fidèlement le ton et le rythme d'une voix humaine soulève des questions légitimes sur les usages détournés, notamment la falsification de propos. Microsoft avec Teams, Amazon avec Chime et des acteurs spécialisés comme Interprefy sont déjà positionnés sur ce marché. L'annonce de Google confirme que la traduction vocale en temps réel va devenir une fonctionnalité standard dans les outils de communication professionnels dans les prochains mois.

Impact France/UE

Les entreprises européennes opérant dans un contexte multilingue (l'UE compte 24 langues officielles) pourraient réduire leur dépendance aux interprètes professionnels via Google Meet et l'API, tandis que l'intégration de SynthID s'inscrit dans les exigences de traçabilité du contenu IA prévues par l'AI Act.

💬 L'analyse de Mathieu

Le passage à 2 000 paires directes sans l'anglais comme pivot, c'est le truc qui m'intéresse vraiment dans cette annonce, parce que c'est un changement d'architecture, pas juste une mise à jour. La démo en conditions propres va toujours marcher, la vraie question c'est ce que ça donne avec un accent fort, du bruit et trois personnes qui se coupent la parole. Et qu'un modèle reproduise fidèlement ta voix en temps réel... SynthID c'est bien, mais on se comprend.

Dans nos dossiers

Gemini Microsoft

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data

Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !

Apple prépare une transformation majeure de Siri avec iOS 27, prévu pour l'été 2026. Selon Mark Gurman, journaliste de Bloomberg et source fiable sur Apple depuis des années, l'entreprise développerait un système d'extensions permettant à n'importe quel chatbot disponible sur l'App Store de s'interfacer directement avec Siri. Concrètement, des assistants comme Claude d'Anthropic, Google Gemini ou d'autres IA tierces pourraient être sollicités via Siri comme intermédiaire : l'utilisateur précise quel modèle utiliser, et Siri relaie la requête. Cette ouverture marquerait la fin de l'exclusivité dont bénéficie actuellement ChatGPT d'OpenAI, intégré depuis iOS 18. Apple travaille depuis 2024 sur cette version refondue, parfois appelée Siri 2.0, qui inclurait également une application Siri dédiée, une interface repensée dans la Dynamic Island, et une fusion avec Spotlight Search. Pour les utilisateurs, l'impact serait considérable : Siri deviendrait un hub centralisé capable de mobiliser des dizaines de modèles spécialisés selon la tâche — analyse de documents, génération de contenu, planification, code. Plus besoin de jongler entre applications : un seul point d'entrée vocal donnerait accès à l'ensemble de l'écosystème IA disponible sur iPhone et iPad. Pour Apple, l'enjeu financier est tout aussi important : la firme prélèverait une commission sur les abonnements souscrits via l'App Store pour accéder aux IA tierces, transformant Siri en levier de monétisation de l'explosion des assistants intelligents. Cette stratégie permettrait à Apple de rivaliser directement avec Amazon Alexa, Microsoft Copilot et Meta AI, sans avoir à développer elle-même des modèles de pointe. Ce pivot s'inscrit dans un contexte délicat pour Apple sur le terrain de l'IA. L'entreprise a accumulé du retard face à Google, Microsoft et OpenAI, et Siri a longtemps été moqué pour ses limitations face à des concurrents bien plus capables. Le partenariat avec OpenAI, annoncé à la WWDC 2024, était une première réponse, mais insuffisante pour couvrir l'ensemble des usages. L'ouverture à tous les chatbots via un modèle d'extensions — similaire à ce qu'Apple a fait avec les widgets ou les extensions de clavier — serait une façon de contourner le problème sans avoir à choisir un seul gagnant. Des questions réglementaires se poseront inévitablement : l'acheminement de données personnelles vers de multiples fournisseurs d'IA soulève des enjeux de confidentialité que les autorités européennes notamment scruteront de près. Apple devra démontrer que cette ouverture reste compatible avec ses engagements en matière de protection des données, un pilier central de son image de marque.

UEL'acheminement de données personnelles vers de multiples fournisseurs d'IA via Siri soulève des questions de conformité RGPD que la CNIL et les autorités européennes devront examiner.

OutilsOpinion

1 source

2Le Big Data

IBM veut faire de l’IA le moteur de transformation des entreprises

Lors de sa conférence annuelle Think 2026, IBM a présenté ce qu'il appelle un "AI operating model", un modèle opérationnel destiné à transformer en profondeur le fonctionnement des entreprises. La pièce maîtresse de cette annonce est une nouvelle version de Watson Orchestrate, qui évolue en plateforme de contrôle multi-agents capable de superviser simultanément plusieurs IA spécialisées, finance, support client, cybersécurité, RH, supply chain. Rob Thomas, vice-président senior des logiciels chez IBM, a insisté sur un point central : la qualité des données reste le prérequis absolu de toute stratégie IA crédible. IBM s'appuie également sur son rapprochement avec Confluent pour renforcer le streaming de données en temps réel via Kafka et Flink, afin que ses modèles ne travaillent plus jamais sur des informations obsolètes. L'enjeu pour IBM est de combler ce qu'il nomme l'"AI divide" : le fossé croissant entre les entreprises qui ont intégré l'IA dans leurs opérations quotidiennes et celles qui restent coincées au stade des expérimentations isolées. Des années de pilotes IA en silo, assistants internes, automatisation documentaire, agents conversationnels, ont atteint leurs limites. IBM veut désormais que ces briques se coordonnent en un système unique et cohérent, gouverné et auditable. Mark Tauschek, vice-président recherche chez Info-Tech Research Group, confirme que la prolifération des agents autonomes crée déjà des risques réels : politiques appliquées de façon incohérente, manque de traçabilité, gouvernance absente. IBM se positionne explicitement comme fournisseur de gouvernance IA plutôt que comme simple éditeur d'outils génératifs. Ce repositionnement intervient dans un contexte où les grands acteurs technologiques se livrent une bataille féroce pour capter les budgets IA des entreprises. Microsoft, Google, Salesforce et Oracle avancent tous leurs propres frameworks d'agents. IBM, dont l'histoire est profondément ancrée dans les infrastructures d'entreprise et la gestion des données sensibles, mise sur la confiance et la gouvernance comme avantages différenciants, un argument qui résonne particulièrement dans les secteurs régulés comme la banque, l'assurance ou la santé. La stratégie repose sur quatre piliers liés : données, agents IA, automatisation et infrastructure hybride. Si IBM parvient à convaincre que cette approche intégrée réduit les risques tout en accélérant la valeur opérationnelle, Think 2026 pourrait marquer un tournant dans sa capacité à reconquérir un rôle de premier plan dans l'ère de l'IA d'entreprise.

UEL'approche gouvernance d'IBM et son focus sur les secteurs régulés (banque, assurance, santé) résonnent directement avec les exigences de l'AI Act européen, dont les premières obligations d'audit et de traçabilité entrent en vigueur cette année.

OutilsOutil

1 source

3Le Big Data

Fini la voix de bureaucrate : vous allez (enfin) pouvoir choisir le ton de Gemini !

Google préparerait une nouvelle fonctionnalité permettant de personnaliser le ton de voix de son assistant Gemini, selon des indices repérés dans la version bêta 17.41.12 de l'application Google. Une rubrique baptisée « Personnaliser » ferait son apparition dans les paramètres vocaux, offrant aux utilisateurs la possibilité d'abandonner la voix prédéfinie au profit d'un réglage sur mesure. Quatre paramètres seraient modifiables : le niveau d'énergie, le degré de formalité, la chaleur et la vitesse de parole, chacun proposant plusieurs niveaux d'intensité. Une fois configurée, cette voix personnalisée s'appliquerait aussi bien dans Gemini Live que dans les conversations classiques de l'application, afin de garantir une cohérence du style de communication partout. Google n'a fait aucune annonce officielle à ce stade, mais tout laisse penser que cette option sera intégrée dans une prochaine mise à jour. Cette personnalisation répond à une critique récurrente adressée aux assistants IA : leur ton uniforme et souvent trop formel, qui ne correspond pas toujours aux attentes de chaque utilisateur. En donnant la main sur l'énergie, la chaleur ou la vitesse de la voix, Google permettrait à chacun d'adapter Gemini à son usage, un ton plus professionnel pour un contexte de travail, plus détendu et chaleureux pour un usage personnel. Pour l'industrie, ce type d'ajustement fin illustre la bataille de différenciation qui s'intensifie entre assistants vocaux, où l'expérience utilisateur et la sensation de naturel deviennent des critères aussi importants que les performances brutes du modèle. Une voix jugée plus proche ou plus agréable peut directement influencer l'adoption quotidienne d'un outil, notamment dans les usages vocaux prolongés comme Gemini Live. Cette découverte intervient peu après une précédente refonte des voix de Gemini, déployée dans la foulée de la conférence Google I/O. L'entreprise avait alors modernisé le sélecteur de voix avec une interface simplifiée et introduit deux nouvelles voix, Flare et Glow, aux côtés de celles déjà disponibles comme Ourse, Vega, Pégase, Louche, Éclipse, Chapelle, Orbite, Orion, Éclater et Briller. Google avait cependant supprimé les descriptions courtes qui accompagnaient chaque voix, comme « Calme » ou « Vif », obligeant désormais les utilisateurs à les écouter pour faire leur choix. L'entreprise en avait profité pour rafraîchir l'ensemble de l'interface, avec de nouvelles icônes pour le microphone, l'appareil photo, la galerie, le partage d'écran et Gemini Live. Ces évolutions successives dessinent une stratégie claire : rendre Gemini plus personnalisable et plus agréable à utiliser au quotidien, à mesure que la concurrence sur les assistants conversationnels s'intensifie.

OutilsOutil

1 source

4MarkTechPost

L'équipe Qwen d'Alibaba lance Qwen3.5-LiveTranslate-Flash : interprétation multimodale en temps réel dans 60 langues avec une latence de 2,8 secondes

L'équipe Qwen d'Alibaba a lancé le 20 mai 2026 son nouveau modèle Qwen3.5-LiveTranslate-Flash, conçu pour l'interprétation simultanée en temps réel. Ce système prend en charge 60 langues en entrée, propose une sortie vocale dans 29 langues, et affiche une latence de seulement 2,8 secondes. Par rapport à son prédécesseur direct, Qwen3-LiveTranslate-Flash, le gain est considérable : l'ancien modèle ne couvrait que 18 langues d'entrée pour environ 3 secondes de délai, ce qui représente un triplement de la couverture linguistique et une réduction mesurable de la latence. La clé de cette rapidité réside dans une technique de segmentation sémantique : plutôt qu'attendre la fin d'une phrase complète, le modèle identifie le moment précis où un fragment de discours contient suffisamment de sens pour engager la traduction, et diffuse la sortie en continu pendant que l'interlocuteur parle encore. Ce modèle change la donne pour plusieurs secteurs professionnels. D'abord, parce qu'il intègre la vision comme signal d'entrée au même titre que l'audio : le système analyse simultanément le texte affiché à l'écran, les objets physiques présents dans le cadre, les mouvements des lèvres et les gestes. Dans un environnement réel, salle de conférence bruyante, salon professionnel, visioconférence dégradée, cette redondance visuelle permet au modèle de combler les ambiguïtés phonétiques que l'audio seul ne peut pas résoudre. Ensuite, le modèle clone en temps réel les caractéristiques vocales de l'orateur original : une seule phrase suffit pour que la voix traduite conserve les traits acoustiques de la personne qui parle, sans substituer une synthèse générique et robotique. Enfin, les développeurs peuvent injecter à l'exécution un glossaire de termes spécialisés, noms de médicaments, références juridiques, terminologie technique, ce qui réduit drastiquement les erreurs sur le vocabulaire de niche, un problème chronique des API de traduction grand public. Alibaba positionne ce modèle dans un segment où peu d'acteurs sont présents avec des solutions complètes : l'interprétation simultanée multimodale à faible latence. Les benchmarks FLEURS et CoVoST2, deux références académiques pour la traduction de la parole en conditions réelles, placent Qwen3.5-LiveTranslate-Flash devant les principales alternatives commerciales actuelles. La course à la latence est devenue le nouvel enjeu structurant de la traduction automatique en direct, après des années dominées par la seule qualité de traduction. D'autres acteurs comme Google, Microsoft et des startups spécialisées comme Wordly ou Interprefy opèrent sur ce terrain, mais peu proposent simultanément la clonage vocal, la fusion audio-vidéo et la personnalisation du vocabulaire dans un seul modèle déployable via API. Les suites probables incluent une intégration dans les plateformes de visioconférence professionnelle et les outils de streaming multilingue, où la demande d'expériences interprétées "invisibles" ne cesse de croître.

UELes institutions et entreprises européennes opérant en environnement multilingue, notamment les organisations internationales, cabinets juridiques et plateformes de visioconférence, pourraient intégrer cette API pour réduire les coûts d'interprétation simultanée humaine.

OutilsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic