Aller au contenu principal
OutilsLe Big Data2h· 2 min de lecture

Gemini 3.5 Translate va faire tomber la barrière des langues

Source originale ↗·

Google a dévoilé le 9 juin 2026 Gemini 3.5 Translate, aussi appelé Gemini 3.5 Live Translate, un modèle audio capable de traduire des conversations orales en temps réel dans plus de 70 langues et plus de 2 000 combinaisons linguistiques. Contrairement aux systèmes précédents qui attendaient la fin d'une phrase complète avant de produire une traduction, ce nouveau modèle écoute, traite et restitue le flux audio en continu, avec un décalage de quelques secondes seulement. L'outil est déployé dans Google Traduction sur Android et iOS, dans Google Meet, et accessible aux développeurs via l'API Gemini Live. Google affirme également que le modèle conserve l'intonation, le rythme et la hauteur de voix du locuteur original, ce qui doit rendre la traduction moins mécanique. La technologie intègre aussi SynthID, un filigrane numérique embarqué dans le signal audio pour identifier les contenus générés par IA. La détection automatique des langues évite à l'utilisateur de changer manuellement les réglages lorsqu'un interlocuteur passe d'une langue à une autre.

L'enjeu dépasse largement la conversation touristique. Pour les entreprises opérant à l'international, Gemini 3.5 Translate ouvre la possibilité de réunions multilingues sans interprète externe, sans sous-titres approximatifs et sans anglais comme langue pivot imposée. Google Meet bénéficiait déjà d'une traduction partielle, mais le système restait très dépendant de l'anglais comme langue intermédiaire ; le passage à plus de 2 000 paires directes représente un changement d'architecture significatif. Pour les développeurs, l'accès via l'API Gemini Live signifie que cette capacité peut s'intégrer dans des applications de mobilité, des services clients automatisés ou des plateformes de communication, ce qui élargit considérablement l'usage potentiel au-delà des produits Google eux-mêmes.

La traduction en temps réel est un problème que l'industrie technologique tente de résoudre depuis des décennies, mais les systèmes actuels peinent encore dans les conditions réelles : bruits ambiants, accents marqués, expressions idiomatiques, locuteurs multiples. Google assure avoir entraîné Gemini 3.5 Translate spécifiquement sur ces scénarios difficiles, mais les démonstrations en conditions contrôlées restent insuffisantes pour valider la promesse. L'intégration de SynthID révèle par ailleurs une tension inhérente à la technologie : un modèle capable de reproduire fidèlement le ton et le rythme d'une voix humaine soulève des questions légitimes sur les usages détournés, notamment la falsification de propos. Microsoft avec Teams, Amazon avec Chime et des acteurs spécialisés comme Interprefy sont déjà positionnés sur ce marché. L'annonce de Google confirme que la traduction vocale en temps réel va devenir une fonctionnalité standard dans les outils de communication professionnels dans les prochains mois.

Impact France/UE

Les entreprises européennes opérant dans un contexte multilingue (l'UE compte 24 langues officielles) pourraient réduire leur dépendance aux interprètes professionnels via Google Meet et l'API, tandis que l'intégration de SynthID s'inscrit dans les exigences de traçabilité du contenu IA prévues par l'AI Act.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !
1Le Big Data 

Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !

Apple prépare une transformation majeure de Siri avec iOS 27, prévu pour l'été 2026. Selon Mark Gurman, journaliste de Bloomberg et source fiable sur Apple depuis des années, l'entreprise développerait un système d'extensions permettant à n'importe quel chatbot disponible sur l'App Store de s'interfacer directement avec Siri. Concrètement, des assistants comme Claude d'Anthropic, Google Gemini ou d'autres IA tierces pourraient être sollicités via Siri comme intermédiaire : l'utilisateur précise quel modèle utiliser, et Siri relaie la requête. Cette ouverture marquerait la fin de l'exclusivité dont bénéficie actuellement ChatGPT d'OpenAI, intégré depuis iOS 18. Apple travaille depuis 2024 sur cette version refondue, parfois appelée Siri 2.0, qui inclurait également une application Siri dédiée, une interface repensée dans la Dynamic Island, et une fusion avec Spotlight Search. Pour les utilisateurs, l'impact serait considérable : Siri deviendrait un hub centralisé capable de mobiliser des dizaines de modèles spécialisés selon la tâche — analyse de documents, génération de contenu, planification, code. Plus besoin de jongler entre applications : un seul point d'entrée vocal donnerait accès à l'ensemble de l'écosystème IA disponible sur iPhone et iPad. Pour Apple, l'enjeu financier est tout aussi important : la firme prélèverait une commission sur les abonnements souscrits via l'App Store pour accéder aux IA tierces, transformant Siri en levier de monétisation de l'explosion des assistants intelligents. Cette stratégie permettrait à Apple de rivaliser directement avec Amazon Alexa, Microsoft Copilot et Meta AI, sans avoir à développer elle-même des modèles de pointe. Ce pivot s'inscrit dans un contexte délicat pour Apple sur le terrain de l'IA. L'entreprise a accumulé du retard face à Google, Microsoft et OpenAI, et Siri a longtemps été moqué pour ses limitations face à des concurrents bien plus capables. Le partenariat avec OpenAI, annoncé à la WWDC 2024, était une première réponse, mais insuffisante pour couvrir l'ensemble des usages. L'ouverture à tous les chatbots via un modèle d'extensions — similaire à ce qu'Apple a fait avec les widgets ou les extensions de clavier — serait une façon de contourner le problème sans avoir à choisir un seul gagnant. Des questions réglementaires se poseront inévitablement : l'acheminement de données personnelles vers de multiples fournisseurs d'IA soulève des enjeux de confidentialité que les autorités européennes notamment scruteront de près. Apple devra démontrer que cette ouverture reste compatible avec ses engagements en matière de protection des données, un pilier central de son image de marque.

UEL'acheminement de données personnelles vers de multiples fournisseurs d'IA via Siri soulève des questions de conformité RGPD que la CNIL et les autorités européennes devront examiner.

OutilsOpinion
1 source
IBM veut faire de l’IA le moteur de transformation des entreprises
2Le Big Data 

IBM veut faire de l’IA le moteur de transformation des entreprises

Lors de sa conférence annuelle Think 2026, IBM a présenté ce qu'il appelle un "AI operating model", un modèle opérationnel destiné à transformer en profondeur le fonctionnement des entreprises. La pièce maîtresse de cette annonce est une nouvelle version de Watson Orchestrate, qui évolue en plateforme de contrôle multi-agents capable de superviser simultanément plusieurs IA spécialisées, finance, support client, cybersécurité, RH, supply chain. Rob Thomas, vice-président senior des logiciels chez IBM, a insisté sur un point central : la qualité des données reste le prérequis absolu de toute stratégie IA crédible. IBM s'appuie également sur son rapprochement avec Confluent pour renforcer le streaming de données en temps réel via Kafka et Flink, afin que ses modèles ne travaillent plus jamais sur des informations obsolètes. L'enjeu pour IBM est de combler ce qu'il nomme l'"AI divide" : le fossé croissant entre les entreprises qui ont intégré l'IA dans leurs opérations quotidiennes et celles qui restent coincées au stade des expérimentations isolées. Des années de pilotes IA en silo, assistants internes, automatisation documentaire, agents conversationnels, ont atteint leurs limites. IBM veut désormais que ces briques se coordonnent en un système unique et cohérent, gouverné et auditable. Mark Tauschek, vice-président recherche chez Info-Tech Research Group, confirme que la prolifération des agents autonomes crée déjà des risques réels : politiques appliquées de façon incohérente, manque de traçabilité, gouvernance absente. IBM se positionne explicitement comme fournisseur de gouvernance IA plutôt que comme simple éditeur d'outils génératifs. Ce repositionnement intervient dans un contexte où les grands acteurs technologiques se livrent une bataille féroce pour capter les budgets IA des entreprises. Microsoft, Google, Salesforce et Oracle avancent tous leurs propres frameworks d'agents. IBM, dont l'histoire est profondément ancrée dans les infrastructures d'entreprise et la gestion des données sensibles, mise sur la confiance et la gouvernance comme avantages différenciants, un argument qui résonne particulièrement dans les secteurs régulés comme la banque, l'assurance ou la santé. La stratégie repose sur quatre piliers liés : données, agents IA, automatisation et infrastructure hybride. Si IBM parvient à convaincre que cette approche intégrée réduit les risques tout en accélérant la valeur opérationnelle, Think 2026 pourrait marquer un tournant dans sa capacité à reconquérir un rôle de premier plan dans l'ère de l'IA d'entreprise.

UEL'approche gouvernance d'IBM et son focus sur les secteurs régulés (banque, assurance, santé) résonnent directement avec les exigences de l'AI Act européen, dont les premières obligations d'audit et de traçabilité entrent en vigueur cette année.

OutilsOutil
1 source
L'équipe Qwen d'Alibaba lance Qwen3.5-LiveTranslate-Flash : interprétation multimodale en temps réel dans 60 langues avec une latence de 2,8 secondes
3MarkTechPost 

L'équipe Qwen d'Alibaba lance Qwen3.5-LiveTranslate-Flash : interprétation multimodale en temps réel dans 60 langues avec une latence de 2,8 secondes

L'équipe Qwen d'Alibaba a lancé le 20 mai 2026 son nouveau modèle Qwen3.5-LiveTranslate-Flash, conçu pour l'interprétation simultanée en temps réel. Ce système prend en charge 60 langues en entrée, propose une sortie vocale dans 29 langues, et affiche une latence de seulement 2,8 secondes. Par rapport à son prédécesseur direct, Qwen3-LiveTranslate-Flash, le gain est considérable : l'ancien modèle ne couvrait que 18 langues d'entrée pour environ 3 secondes de délai, ce qui représente un triplement de la couverture linguistique et une réduction mesurable de la latence. La clé de cette rapidité réside dans une technique de segmentation sémantique : plutôt qu'attendre la fin d'une phrase complète, le modèle identifie le moment précis où un fragment de discours contient suffisamment de sens pour engager la traduction, et diffuse la sortie en continu pendant que l'interlocuteur parle encore. Ce modèle change la donne pour plusieurs secteurs professionnels. D'abord, parce qu'il intègre la vision comme signal d'entrée au même titre que l'audio : le système analyse simultanément le texte affiché à l'écran, les objets physiques présents dans le cadre, les mouvements des lèvres et les gestes. Dans un environnement réel, salle de conférence bruyante, salon professionnel, visioconférence dégradée, cette redondance visuelle permet au modèle de combler les ambiguïtés phonétiques que l'audio seul ne peut pas résoudre. Ensuite, le modèle clone en temps réel les caractéristiques vocales de l'orateur original : une seule phrase suffit pour que la voix traduite conserve les traits acoustiques de la personne qui parle, sans substituer une synthèse générique et robotique. Enfin, les développeurs peuvent injecter à l'exécution un glossaire de termes spécialisés, noms de médicaments, références juridiques, terminologie technique, ce qui réduit drastiquement les erreurs sur le vocabulaire de niche, un problème chronique des API de traduction grand public. Alibaba positionne ce modèle dans un segment où peu d'acteurs sont présents avec des solutions complètes : l'interprétation simultanée multimodale à faible latence. Les benchmarks FLEURS et CoVoST2, deux références académiques pour la traduction de la parole en conditions réelles, placent Qwen3.5-LiveTranslate-Flash devant les principales alternatives commerciales actuelles. La course à la latence est devenue le nouvel enjeu structurant de la traduction automatique en direct, après des années dominées par la seule qualité de traduction. D'autres acteurs comme Google, Microsoft et des startups spécialisées comme Wordly ou Interprefy opèrent sur ce terrain, mais peu proposent simultanément la clonage vocal, la fusion audio-vidéo et la personnalisation du vocabulaire dans un seul modèle déployable via API. Les suites probables incluent une intégration dans les plateformes de visioconférence professionnelle et les outils de streaming multilingue, où la demande d'expériences interprétées "invisibles" ne cesse de croître.

UELes institutions et entreprises européennes opérant en environnement multilingue, notamment les organisations internationales, cabinets juridiques et plateformes de visioconférence, pourraient intégrer cette API pour réduire les coûts d'interprétation simultanée humaine.

OutilsOpinion
1 source
ChatGPT, Claude, Grok… comment transférer tous vos chats sur Gemini ?
4Le Big Data 

ChatGPT, Claude, Grok… comment transférer tous vos chats sur Gemini ?

Google a annoncé fin mars 2026 une fonctionnalité permettant aux utilisateurs de Gemini d'importer leurs conversations et préférences depuis d'autres assistants IA, notamment ChatGPT, Claude et Grok. Le système repose sur deux mécanismes distincts : l'import de mémoire, semi-automatisé via un résumé de préférences généré depuis l'assistant d'origine puis collé dans Gemini, et l'import d'historique complet, qui consiste à exporter ses conversations en fichier ZIP depuis la plateforme source et à les charger dans Gemini via les paramètres. Une fois intégré, l'historique devient consultable et réutilisable, et Gemini peut s'appuyer sur les données passées pour orienter ses réponses dès la première interaction. Si l'utilisateur l'autorise, l'assistant peut également croiser ces informations avec d'autres services Google comme Gmail, Google Photos ou l'historique de recherche. Cette initiative s'attaque à l'un des freins majeurs à l'adoption d'un nouvel assistant IA : le coût de la migration. Plus un utilisateur a interagi avec un outil comme ChatGPT ou Claude, plus celui-ci devient personnalisé, et quitter cet environnement signifiait jusqu'ici repartir de zéro, perdre des mois de contexte accumulé, de préférences affinées, de références partagées. En supprimant ce verrou, Google réduit mécaniquement la barrière au changement et se positionne pour capter des utilisateurs déjà engagés chez ses concurrents. L'enjeu est considérable sur un marché où la différenciation ne se joue plus uniquement sur la puissance brute du modèle, mais sur la qualité de l'expérience accumulée. Gemini se présente ainsi comme un assistant "déjà prêt", capable de comprendre immédiatement qui vous êtes plutôt que de devoir vous redécouvrir. Cette décision s'inscrit dans une compétition acharnée entre les grandes plateformes d'IA générative. OpenAI avec ChatGPT, Anthropic avec Claude, et xAI avec Grok ont chacun constitué des bases d'utilisateurs fidèles grâce à la personnalisation progressive de leurs outils. Google, malgré la puissance technique de Gemini et son intégration native dans l'écosystème Android et Workspace, peinait à convaincre les utilisateurs déjà installés ailleurs de franchir le pas. La portabilité des données est un argument stratégique autant qu'un geste de confort pour l'utilisateur. Les limites restent toutefois réelles : l'import de mémoire repose encore sur du copier-coller manuel, ce qui peut décourager des utilisateurs moins techniques, et la qualité du transfert dépend aussi de la richesse des exports proposés par chaque plateforme concurrente, lesquels ne sont pas tous complets ni standardisés. La prochaine étape logique serait une API d'interopérabilité directe, mais aucune annonce en ce sens n'a été faite.

UELes utilisateurs européens de ChatGPT, Claude ou Grok peuvent désormais migrer vers Gemini sans perdre leur historique, ce qui renforce la pression concurrentielle sur le marché des assistants IA en Europe.

💬 C'est le coup classique de celui qui arrive en retard : réduire le coût de la migration pour débaucher les utilisateurs installés ailleurs. Bon, sur le papier c'est malin, mais tant que l'import de mémoire repose sur du copier-coller manuel, ça va surtout intéresser les geeks motivés, pas le grand public. La vraie bataille sera quand OpenAI et Anthropic décideront s'ils facilitent ou sabotent leurs propres exports.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic