Aller au contenu principal
GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe
LLMsLatent Space6sem· 2 min de lecture

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe

Source originale ↗·

OpenAI a lancé le 6 mai 2026 trois nouveaux modèles audio dans son API Realtime : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Le modèle phare, GPT-Realtime-2, affiche une progression de 15,2 % sur le benchmark Big Bench Audio, contre seulement 5 % pour le realtime-1.5 sorti il y a trois mois. OpenAI le présente comme son "modèle vocal le plus intelligent à ce jour", intégrant un raisonnement comparable à GPT-5 en temps réel. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, avec jusqu'à 32 000 tokens en sortie. GPT-Realtime-Translate prend en charge la traduction simultanée depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper offre une transcription en streaming à faible latence pour les sous-titres et la prise de notes. Les trois modèles sont disponibles immédiatement dans l'API Realtime pour les développeurs ; les améliorations dans ChatGPT voice sont annoncées mais non encore déployées.

L'enjeu de cette version dépasse la qualité audio : OpenAI mise sur l'utilisabilité des agents vocaux en production. GPT-Realtime-2 permet des appels d'outils en parallèle avec des confirmations verbales ("je vérifie votre calendrier"), des préambules naturels ("un instant, je cherche ça"), et une meilleure gestion des interruptions. Il peut aussi adapter son ton, calme, empathique ou dynamique, selon le contexte, et les développeurs peuvent désormais régler le niveau de raisonnement sur cinq paliers allant de "minimal" à "xhigh". Pour les entreprises qui déploient des agents vocaux dans la santé, le service client ou les assistants professionnels, ce gain de fluidité et de robustesse représente un saut concret vers des systèmes déployables sans supervision constante.

Cette sortie s'inscrit dans une course effrénée pour dominer les interfaces vocales de l'IA. OpenAI avait lancé son API Realtime en septembre 2024, mais les premières versions peinaient à convaincre par leur manque de fiabilité et leur contexte limité. La progression rapide des trois derniers mois signale une priorité stratégique claire : Sam Altman a lui-même souligné que les utilisateurs recourent de plus en plus à la voix pour "déverser" de grandes quantités de contexte à l'IA, un usage que les interfaces texte peinent à absorber naturellement. Face à Google, qui pousse ses propres modèles Gemini Live, et à des acteurs spécialisés comme ElevenLabs, OpenAI cherche à verrouiller le segment des agents vocaux professionnels avant que le marché ne se fragmente.

Impact France/UE

Les développeurs et entreprises européennes déployant des agents vocaux (santé, service client, assistants professionnels) peuvent immédiatement accéder aux nouvelles capacités via l'API Realtime, avec un support multilingue étendu à plus de 70 langues dont le français.

💬 L'analyse de Mathieu

L'API Realtime de septembre 2024, franchement, ça peinait. Là, les préambules naturels, les interruptions gérées, les appels d'outils en parallèle avec confirmation verbale, tout ce qui rend un agent vocal déployable sans supervision constante, c'est enfin dans la boîte. C'est le genre de liste de features qui fait passer de la démo au vrai prod.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

OpenAI publie trois nouveaux modèles audio en temps réel dans son API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper
1MarkTechPost 

OpenAI publie trois nouveaux modèles audio en temps réel dans son API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper

OpenAI a lancé le 7 mai 2026 trois nouveaux modèles audio via son API Realtime, désormais disponible en version stable après plusieurs mois de bêta. Le premier, GPT-Realtime-2, est le modèle phare : OpenAI le décrit comme son premier modèle vocal doté d'un raisonnement de niveau GPT-5. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, ce qui lui permet de maintenir le fil de conversations longues et complexes. Le modèle gère les interruptions naturelles, peut appeler plusieurs outils simultanément et narrer ses actions en temps réel, évitant les silences gênants qui faisaient paraître les agents vocaux précédents défaillants. Les développeurs peuvent également ajuster l'intensité du raisonnement sur cinq niveaux -- de "minimal" à "xhigh" -- selon la complexité de la tâche. Sur les benchmarks, GPT-Realtime-2 atteint 96,6 % sur Big Bench Audio contre 81,4 % pour GPT-Realtime-1.5, soit un gain de 15,2 points. Il est facturé 32 dollars par million de tokens audio en entrée et 64 dollars par million en sortie. Les deux autres modèles sont plus spécialisés : GPT-Realtime-Translate assure la traduction en direct depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper prend en charge la transcription en streaming. Ces lancements marquent un virage concret pour les équipes qui construisent des applications vocales en production. Jusqu'ici, les agents vocaux se heurtaient à plusieurs limites structurelles : perte de contexte sur les longues sessions, mauvaise gestion des requêtes multi-étapes, silences awkward pendant le traitement. GPT-Realtime-2 répond directement à ces points avec des phrases tampons ("laissez-moi vérifier cela"), un contrôle du ton selon le contexte émotionnel de l'utilisateur, et une meilleure reconnaissance du vocabulaire sectoriel, notamment médical. La sortie de bêta de l'API est elle-même un signal fort : OpenAI indique que l'infrastructure est assez stable pour des déploiements critiques, ce qui devrait lever les réticences des équipes qui attendaient cette garantie pour construire. Cette évolution s'inscrit dans une course technologique accélérée autour de la voix. Depuis le lancement de l'API Realtime en octobre 2024, OpenAI a dû répondre à la pression de concurrents comme Google avec Gemini Live ou ElevenLabs sur le segment de la synthèse et de la traduction vocales. Le modèle de traduction GPT-Realtime-Translate vise directement les cas d'usage professionnels -- support client multilingue, réunions internationales, services de santé -- où la latence et la fidélité de traduction sont critiques. La capacité à moduler l'effort de raisonnement en fonction du cas d'usage ouvre par ailleurs la voie à des architectures hybrides, où un même agent peut traiter une question simple en quelques centaines de millisecondes et une demande complexe avec davantage de calcul, sans changer de modèle.

UELes développeurs européens qui construisent des applications vocales disposent désormais d'une API stable avec des capacités de traduction multilingue exploitables dans des contextes professionnels (support client, santé, réunions internationales).

💬 Les silences dans les agents vocaux, c'était LE problème qu'on ne savait pas contourner proprement. GPT-Realtime-2 gère ça avec des phrases tampons, un contexte à 128k tokens et des appels d'outils en parallèle, c'est pas sexy mais c'est ce qui manquait. Le vrai signal c'est la sortie de bêta de l'API : OpenAI garantit maintenant une infra stable pour des déploiements critiques, et ça va débloquer pas mal d'équipes qui attendaient juste ce feu vert.

LLMsActu
1 source
Google annonce Gemini 3.5 Live Translate pour la traduction vocale en temps réel
2Ars Technica AI 

Google annonce Gemini 3.5 Live Translate pour la traduction vocale en temps réel

Google a annoncé Gemini 3.5 Live Translate, un nouveau modèle d'intelligence artificielle dédié à la traduction vocale instantanée, disponible dans plus de 70 langues. Ce modèle speech-to-speech fait partie de la famille Gemini 3.5 lancée lors de Google I/O, dont seule la version Flash avait jusqu'ici été déployée. La version Live Translate se distingue par une latence très faible, capable de suivre une conversation naturelle avec seulement quelques secondes de décalage, tout en reproduisant l'intonation, le rythme et la tonalité de la voix d'origine plutôt qu'une synthèse vocale générique. L'impact est significatif pour quiconque communique régulièrement dans des langues différentes, que ce soit dans un cadre professionnel, lors de voyages ou dans des contextes médicaux ou juridiques. En s'affranchissant de la nécessité d'avoir un téléphone Pixel ou des écouteurs spécifiques, Google ouvre cette capacité à un public beaucoup plus large. La fidélité vocale, qui préserve les caractéristiques personnelles de la voix du locuteur, représente un saut qualitatif par rapport aux solutions robotiques actuelles, rendant les échanges traduits plus naturels et plus dignes de confiance. Google travaille sur la traduction en temps réel depuis plusieurs années, avec des démonstrations publiques récurrentes lors de ses événements annuels, mais les contraintes matérielles en limitaient l'accès. L'an dernier, la traduction en direct avait été étendue à l'application Google Translate, mais Gemini 3.5 Live Translate marque une nouvelle étape en intégrant cette capacité directement dans un modèle de la série 3.5. Une version Pro de Gemini 3.5 est attendue dans les prochaines semaines, ce qui laisse entrevoir des performances encore supérieures. La course à la traduction universelle s'intensifie, avec des concurrents comme Meta et Microsoft qui investissent également dans ce domaine, faisant de la barrière des langues l'un des prochains grands défis résolus par l'IA.

UELa disponibilité de Gemini 3.5 Live Translate dans plus de 70 langues dont le français facilite la communication multilingue pour les professionnels et entreprises européens sans contrainte matérielle.

💬 C'est le genre de démo qu'on voit à Google I/O depuis quatre ans, sauf que là deux trucs changent vraiment : plus besoin de Pixel ni d'écouteurs spécifiques, et le modèle garde l'intonation et le rythme de la voix d'origine. Ce deuxième point, c'est ce qui rend ça utilisable pour de vrai dans un contexte médical ou légal, pas juste impressionnant en keynote. Reste à voir sur les accents difficiles et le bruit ambiant, mais pour la première fois je prends cette démo au sérieux.

LLMsActu
1 source
GPT-Realtime-2 : l’IA vocale d’OpenAI pense pendant qu’elle vous parle
3Le Big Data 

GPT-Realtime-2 : l’IA vocale d’OpenAI pense pendant qu’elle vous parle

OpenAI a annoncé le 7 mai 2026 le lancement de GPT-Realtime-2, son nouveau modèle vocal disponible via l'API Realtime. Ce modèle intègre directement les capacités de raisonnement de GPT-5, ce qui le distingue fondamentalement de ses prédécesseurs. Concrètement, il peut écouter, analyser des requêtes complexes, appeler des outils externes et gérer les interruptions sans perdre le fil d'une conversation. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, lui permettant de suivre des échanges prolongés sans oublier ce qui a été dit plusieurs minutes auparavant. OpenAI lance simultanément deux modèles complémentaires : GPT-Realtime-Translate, capable de traduire en temps réel des conversations dans plus de 70 langues d'entrée vers 13 langues de sortie, et GPT-Realtime-Whisper, dédié à la transcription ultra-rapide avec génération automatique de sous-titres et de notes de réunion. Deutsche Telekom a déjà intégré GPT-Realtime-Translate dans ses solutions de support vocal multilingue. Ce que change GPT-Realtime-2, c'est la nature même de l'interaction vocale avec une IA. Jusqu'ici, les assistants vocaux répondaient vite mais sans véritable compréhension du contexte. Ce nouveau modèle introduit un comportement plus humain : lorsqu'il traite une requête complexe, il verbalise son activité avec des phrases comme "Laissez-moi vérifier cela" ou "Je regarde votre calendrier", rendant les temps de traitement naturels plutôt qu'anxiogènes. Il est également capable de reconnaître ses propres difficultés au lieu de rester silencieux. Pour les entreprises qui déploient des agents vocaux en support client, en assistance médicale ou en gestion de réunions, ce niveau de robustesse change radicalement ce que l'on peut exiger de ces systèmes. Cette annonce s'inscrit dans une course accélérée à la voix comme interface centrale entre humains et logiciels. OpenAI positionne explicitement GPT-Realtime-2 comme un concurrent direct aux assistants vocaux établis de Google, Apple et Amazon, dont les limites en matière de raisonnement sont bien connues. La stratégie d'OpenAI est claire : en ouvrant ces capacités via API, la société mise sur les développeurs tiers pour construire la prochaine génération d'agents conversationnels. L'enjeu dépasse le simple gadget vocal : si parler devient plus efficace que cliquer, c'est toute la manière dont les professionnels interagissent avec leurs outils qui se trouve redéfinie. Les prochains mois diront si les usages en entreprise confirment cette promesse à grande échelle.

UEDeutsche Telekom a déjà intégré GPT-Realtime-Translate dans ses solutions de support vocal multilingue, ouvrant la voie à des agents vocaux multilingues pour les entreprises et opérateurs télécoms européens.

💬 Ce qui change vraiment ici, c'est pas la vitesse (on était déjà pas mal) mais le raisonnement en temps réel, embarqué directement dans le vocal. Le "Laissez-moi vérifier ça" plutôt que le silence mort pendant le traitement, c'est un détail UX qui va tout changer pour les équipes qui déploient des agents vocaux en support ou en médical. Sur le papier c'est exactement ce qui manquait, bon, reste à voir si ça tient à 10 000 appels simultanés.

LLMsOpinion
1 source
OpenAI intègre le raisonnement GPT-5 dans la voix en temps réel et transforme ce que les agents vocaux peuvent orchestrer
4VentureBeat AI 

OpenAI intègre le raisonnement GPT-5 dans la voix en temps réel et transforme ce que les agents vocaux peuvent orchestrer

OpenAI a lancé trois nouveaux modèles vocaux distincts : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Le premier est présenté comme le premier modèle vocal de la société doté d'un raisonnement "de classe GPT-5", capable de traiter des requêtes complexes tout en maintenant un flux de conversation naturel. GPT-Realtime-Translate prend en charge plus de 70 langues en entrée et les traduit vers 13 autres en temps réel, au rythme de l'interlocuteur. GPT-Realtime-Whisper, lui, se concentre exclusivement sur la transcription audio vers texte. Jusqu'ici, ces trois fonctions, conversation, traduction, transcription, étaient regroupées dans un seul système vocal monolithique. OpenAI les sépare désormais en composants spécialisés distincts, chacun gérable indépendamment, avec une fenêtre de contexte de 128 000 tokens. Ce changement architectural a des conséquences directes pour les entreprises qui déploient des agents vocaux à grande échelle. Jusqu'à présent, la lourdeur de ces systèmes tenait moins aux capacités conversationnelles des modèles qu'à leurs limites de contexte : les équipes techniques devaient construire des mécanismes de réinitialisation de session, de compression d'état et de reconstruction à chaque déploiement, ce qui alourdissait considérablement l'infrastructure. En décomposant la voix en primitives d'orchestration séparées, OpenAI permet aux entreprises d'assigner chaque tâche au modèle le plus adapté, de réduire la redondance et de mieux maîtriser les coûts. L'intérêt commercial est aussi clair : les interactions vocales génèrent des données clients particulièrement riches, et la demande pour ces agents augmente à mesure que les utilisateurs s'habituent à converser avec des IA. Cette annonce s'inscrit dans une course à la voix enterprise où OpenAI n'est plus seul. Mistral a récemment lancé ses modèles Voxtral, également orientés entreprises et structurés autour de la séparation transcription/conversation, ciblant directement le même segment de marché. Pour les équipes techniques qui évaluent ces solutions, le critère de choix ne se limite plus à la qualité brute du modèle : il faut désormais s'assurer que l'architecture d'orchestration existante est capable de router des tâches vocales vers des modèles spécialisés et de gérer l'état sur une fenêtre de 128 000 tokens. La modularisation de la voix, longtemps présentée comme une bonne pratique théorique, devient une contrainte d'intégration concrète pour quiconque veut tirer parti de ces nouveaux modèles dans un pipeline agentique plus large.

UELa modularisation de la voix par OpenAI crée une nouvelle contrainte d'intégration pour les entreprises européennes déployant des agents vocaux, et place Mistral (France) en compétition directe sur ce segment enterprise avec ses modèles Voxtral.

💬 La vraie nouvelle, c'est pas le titre GPT-5 dans la voix. C'est la modularisation : trois primitives séparées, chacune gérable indépendamment, fini les sessions à réinitialiser à la main entre deux tours de conversation. Mistral est déjà en face avec Voxtral, donc le match va se jouer sur l'intégration, pas sur les benchmarks.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic