Aller au contenu principal
GPT-Realtime-2 : l’IA vocale d’OpenAI pense pendant qu’elle vous parle
LLMsLe Big Data6sem· 2 min de lecture

GPT-Realtime-2 : l’IA vocale d’OpenAI pense pendant qu’elle vous parle

Source originale ↗·

OpenAI a annoncé le 7 mai 2026 le lancement de GPT-Realtime-2, son nouveau modèle vocal disponible via l'API Realtime. Ce modèle intègre directement les capacités de raisonnement de GPT-5, ce qui le distingue fondamentalement de ses prédécesseurs. Concrètement, il peut écouter, analyser des requêtes complexes, appeler des outils externes et gérer les interruptions sans perdre le fil d'une conversation. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, lui permettant de suivre des échanges prolongés sans oublier ce qui a été dit plusieurs minutes auparavant. OpenAI lance simultanément deux modèles complémentaires : GPT-Realtime-Translate, capable de traduire en temps réel des conversations dans plus de 70 langues d'entrée vers 13 langues de sortie, et GPT-Realtime-Whisper, dédié à la transcription ultra-rapide avec génération automatique de sous-titres et de notes de réunion. Deutsche Telekom a déjà intégré GPT-Realtime-Translate dans ses solutions de support vocal multilingue.

Ce que change GPT-Realtime-2, c'est la nature même de l'interaction vocale avec une IA. Jusqu'ici, les assistants vocaux répondaient vite mais sans véritable compréhension du contexte. Ce nouveau modèle introduit un comportement plus humain : lorsqu'il traite une requête complexe, il verbalise son activité avec des phrases comme "Laissez-moi vérifier cela" ou "Je regarde votre calendrier", rendant les temps de traitement naturels plutôt qu'anxiogènes. Il est également capable de reconnaître ses propres difficultés au lieu de rester silencieux. Pour les entreprises qui déploient des agents vocaux en support client, en assistance médicale ou en gestion de réunions, ce niveau de robustesse change radicalement ce que l'on peut exiger de ces systèmes.

Cette annonce s'inscrit dans une course accélérée à la voix comme interface centrale entre humains et logiciels. OpenAI positionne explicitement GPT-Realtime-2 comme un concurrent direct aux assistants vocaux établis de Google, Apple et Amazon, dont les limites en matière de raisonnement sont bien connues. La stratégie d'OpenAI est claire : en ouvrant ces capacités via API, la société mise sur les développeurs tiers pour construire la prochaine génération d'agents conversationnels. L'enjeu dépasse le simple gadget vocal : si parler devient plus efficace que cliquer, c'est toute la manière dont les professionnels interagissent avec leurs outils qui se trouve redéfinie. Les prochains mois diront si les usages en entreprise confirment cette promesse à grande échelle.

Impact France/UE

Deutsche Telekom a déjà intégré GPT-Realtime-Translate dans ses solutions de support vocal multilingue, ouvrant la voie à des agents vocaux multilingues pour les entreprises et opérateurs télécoms européens.

💬 L'analyse de Mathieu

Ce qui change vraiment ici, c'est pas la vitesse (on était déjà pas mal) mais le raisonnement en temps réel, embarqué directement dans le vocal. Le "Laissez-moi vérifier ça" plutôt que le silence mort pendant le traitement, c'est un détail UX qui va tout changer pour les équipes qui déploient des agents vocaux en support ou en médical. Sur le papier c'est exactement ce qui manquait, bon, reste à voir si ça tient à 10 000 appels simultanés.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe
1Latent Space 

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe

OpenAI a lancé le 6 mai 2026 trois nouveaux modèles audio dans son API Realtime : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Le modèle phare, GPT-Realtime-2, affiche une progression de 15,2 % sur le benchmark Big Bench Audio, contre seulement 5 % pour le realtime-1.5 sorti il y a trois mois. OpenAI le présente comme son "modèle vocal le plus intelligent à ce jour", intégrant un raisonnement comparable à GPT-5 en temps réel. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, avec jusqu'à 32 000 tokens en sortie. GPT-Realtime-Translate prend en charge la traduction simultanée depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper offre une transcription en streaming à faible latence pour les sous-titres et la prise de notes. Les trois modèles sont disponibles immédiatement dans l'API Realtime pour les développeurs ; les améliorations dans ChatGPT voice sont annoncées mais non encore déployées. L'enjeu de cette version dépasse la qualité audio : OpenAI mise sur l'utilisabilité des agents vocaux en production. GPT-Realtime-2 permet des appels d'outils en parallèle avec des confirmations verbales ("je vérifie votre calendrier"), des préambules naturels ("un instant, je cherche ça"), et une meilleure gestion des interruptions. Il peut aussi adapter son ton, calme, empathique ou dynamique, selon le contexte, et les développeurs peuvent désormais régler le niveau de raisonnement sur cinq paliers allant de "minimal" à "xhigh". Pour les entreprises qui déploient des agents vocaux dans la santé, le service client ou les assistants professionnels, ce gain de fluidité et de robustesse représente un saut concret vers des systèmes déployables sans supervision constante. Cette sortie s'inscrit dans une course effrénée pour dominer les interfaces vocales de l'IA. OpenAI avait lancé son API Realtime en septembre 2024, mais les premières versions peinaient à convaincre par leur manque de fiabilité et leur contexte limité. La progression rapide des trois derniers mois signale une priorité stratégique claire : Sam Altman a lui-même souligné que les utilisateurs recourent de plus en plus à la voix pour "déverser" de grandes quantités de contexte à l'IA, un usage que les interfaces texte peinent à absorber naturellement. Face à Google, qui pousse ses propres modèles Gemini Live, et à des acteurs spécialisés comme ElevenLabs, OpenAI cherche à verrouiller le segment des agents vocaux professionnels avant que le marché ne se fragmente.

UELes développeurs et entreprises européennes déployant des agents vocaux (santé, service client, assistants professionnels) peuvent immédiatement accéder aux nouvelles capacités via l'API Realtime, avec un support multilingue étendu à plus de 70 langues dont le français.

💬 L'API Realtime de septembre 2024, franchement, ça peinait. Là, les préambules naturels, les interruptions gérées, les appels d'outils en parallèle avec confirmation verbale, tout ce qui rend un agent vocal déployable sans supervision constante, c'est enfin dans la boîte. C'est le genre de liste de features qui fait passer de la démo au vrai prod.

LLMsOpinion
1 source
OpenAI publie trois nouveaux modèles audio en temps réel dans son API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper
2MarkTechPost 

OpenAI publie trois nouveaux modèles audio en temps réel dans son API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper

OpenAI a lancé le 7 mai 2026 trois nouveaux modèles audio via son API Realtime, désormais disponible en version stable après plusieurs mois de bêta. Le premier, GPT-Realtime-2, est le modèle phare : OpenAI le décrit comme son premier modèle vocal doté d'un raisonnement de niveau GPT-5. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, ce qui lui permet de maintenir le fil de conversations longues et complexes. Le modèle gère les interruptions naturelles, peut appeler plusieurs outils simultanément et narrer ses actions en temps réel, évitant les silences gênants qui faisaient paraître les agents vocaux précédents défaillants. Les développeurs peuvent également ajuster l'intensité du raisonnement sur cinq niveaux -- de "minimal" à "xhigh" -- selon la complexité de la tâche. Sur les benchmarks, GPT-Realtime-2 atteint 96,6 % sur Big Bench Audio contre 81,4 % pour GPT-Realtime-1.5, soit un gain de 15,2 points. Il est facturé 32 dollars par million de tokens audio en entrée et 64 dollars par million en sortie. Les deux autres modèles sont plus spécialisés : GPT-Realtime-Translate assure la traduction en direct depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper prend en charge la transcription en streaming. Ces lancements marquent un virage concret pour les équipes qui construisent des applications vocales en production. Jusqu'ici, les agents vocaux se heurtaient à plusieurs limites structurelles : perte de contexte sur les longues sessions, mauvaise gestion des requêtes multi-étapes, silences awkward pendant le traitement. GPT-Realtime-2 répond directement à ces points avec des phrases tampons ("laissez-moi vérifier cela"), un contrôle du ton selon le contexte émotionnel de l'utilisateur, et une meilleure reconnaissance du vocabulaire sectoriel, notamment médical. La sortie de bêta de l'API est elle-même un signal fort : OpenAI indique que l'infrastructure est assez stable pour des déploiements critiques, ce qui devrait lever les réticences des équipes qui attendaient cette garantie pour construire. Cette évolution s'inscrit dans une course technologique accélérée autour de la voix. Depuis le lancement de l'API Realtime en octobre 2024, OpenAI a dû répondre à la pression de concurrents comme Google avec Gemini Live ou ElevenLabs sur le segment de la synthèse et de la traduction vocales. Le modèle de traduction GPT-Realtime-Translate vise directement les cas d'usage professionnels -- support client multilingue, réunions internationales, services de santé -- où la latence et la fidélité de traduction sont critiques. La capacité à moduler l'effort de raisonnement en fonction du cas d'usage ouvre par ailleurs la voie à des architectures hybrides, où un même agent peut traiter une question simple en quelques centaines de millisecondes et une demande complexe avec davantage de calcul, sans changer de modèle.

UELes développeurs européens qui construisent des applications vocales disposent désormais d'une API stable avec des capacités de traduction multilingue exploitables dans des contextes professionnels (support client, santé, réunions internationales).

💬 Les silences dans les agents vocaux, c'était LE problème qu'on ne savait pas contourner proprement. GPT-Realtime-2 gère ça avec des phrases tampons, un contexte à 128k tokens et des appels d'outils en parallèle, c'est pas sexy mais c'est ce qui manquait. Le vrai signal c'est la sortie de bêta de l'API : OpenAI garantit maintenant une infra stable pour des déploiements critiques, et ça va débloquer pas mal d'équipes qui attendaient juste ce feu vert.

LLMsActu
1 source
GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA
3Le Big Data 

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA

OpenAI et NVIDIA ont officialisé en avril 2026 un partenariat approfondi autour de GPT-5.5, le dernier grand modèle d'OpenAI déployé sur les infrastructures GB200 NVL72 de NVIDIA. Dès le lancement, plus de 10 000 employés de NVIDIA utilisent GPT-5.5 au quotidien, notamment via Codex, l'agent de développement logiciel d'OpenAI capable de transformer des instructions en langage naturel en actions concrètes sur des bases de code complexes. Les chiffres avancés sont frappants : un gain de débit multiplié par 50 et une réduction des coûts par jeton de l'ordre de 35 fois par rapport aux configurations précédentes. Chez NVIDIA, les cycles de débogage qui prenaient plusieurs jours se ramènent désormais à quelques heures, et des expérimentations autrefois longues de plusieurs semaines aboutissent maintenant en une seule nuit. Ces résultats illustrent un tournant dans l'adoption de l'IA générative en entreprise : la question n'est plus uniquement celle des capacités du modèle, mais de sa viabilité économique et opérationnelle à grande échelle. La réduction drastique des coûts d'inférence rend envisageable le déploiement d'agents IA sur l'ensemble des équipes techniques, et non plus seulement dans des projets pilotes isolés. L'impact dépasse le seul développement logiciel : les agents pilotés par GPT-5.5 interviennent désormais dans l'analyse, la résolution de problèmes et la génération d'idées, touchant le travail intellectuel dans sa globalité. Pour les directions techniques comme pour les décideurs métiers, c'est le signe que ces outils ont franchi le seuil de la maturité industrielle. Ce partenariat s'inscrit dans une relation qui remonte à 2016, lorsque NVIDIA avait livré à OpenAI l'un de ses premiers supercalculateurs DGX-1. Depuis dix ans, les deux entreprises co-construisent une partie essentielle de la chaîne de valeur de l'IA, OpenAI apportant les modèles et NVIDIA l'infrastructure d'inférence. Sur la question de la sécurité, longtemps présentée comme le principal frein à l'adoption en entreprise, le déploiement de Codex intègre des réponses architecturales concrètes : chaque agent opère dans un environnement isolé via des machines virtuelles sécurisées, les accès aux systèmes critiques sont limités en lecture seule, et une politique stricte de non-rétention des données est appliquée. Jensen Huang, PDG de NVIDIA, résume l'ambition commune en affirmant qu'on entre « pleinement dans l'ère de l'IA », une formulation qui traduit moins un effet d'annonce qu'un constat opérationnel : pour des milliers d'ingénieurs, l'IA agentique est déjà une réalité quotidienne.

UELa réduction des coûts d'inférence liée aux nouvelles générations de hardware IA pourrait faciliter l'adoption d'agents IA à grande échelle dans les entreprises européennes, sans impact réglementaire ou institutionnel direct.

LLMsActu
1 source
GPT-5.5 : OpenAI révèle comment l’IA Spud va tout changer dans ChatGPT
4Le Big Data 

GPT-5.5 : OpenAI révèle comment l’IA Spud va tout changer dans ChatGPT

OpenAI s'apprête à lancer GPT-5.5, propulsé par un nouveau modèle de fondation baptisé en interne "Spud". L'annonce a été faite par Greg Brockman, président d'OpenAI, lors d'une intervention dans le podcast Big Technology début avril 2026. Spud n'est pas une mise à jour incrémentale : il s'agit d'une architecture de pré-entraînement entièrement repensée, fruit de deux ans de recherche intensive dans les laboratoires d'OpenAI. Ce modèle de base servira de fondation à toutes les futures déclinaisons de ChatGPT, remplaçant les socles précédents par une infrastructure centralisée pensée pour des capacités de calcul et de raisonnement significativement supérieures. Brockman décrit ce saut comme un "big model smell" — une sensation perceptible que le modèle est notablement plus intelligent et s'adapte mieux aux intentions de l'utilisateur dès la première requête. L'impact concret se situe d'abord dans la qualité des interactions quotidiennes. Là où les utilisateurs actuels de ChatGPT doivent parfois reformuler plusieurs fois une demande pour obtenir la réponse souhaitée, Spud vise à saisir l'intention sans friction. Pour les professionnels qui utilisent l'IA pour de la rédaction, de la programmation ou de la prise de décision, cette réduction du "coût cognitif" de l'interaction représente un gain de productivité direct. Les entreprises intégrant ChatGPT dans leurs workflows pourront s'appuyer sur un modèle plus fiable et moins imprévisible. Au-delà des usages courants, c'est aussi la porte d'entrée vers des applications d'automatisation plus complexes, où la précision de compréhension du langage naturel est critique. Ce lancement s'inscrit dans une course technologique qui s'accélère. OpenAI fait face à une concurrence intense de Google avec Gemini, d'Anthropic avec Claude, et d'acteurs émergents comme xAI. Dans ce contexte, Spud est présenté par Brockman non pas seulement comme un produit commercial, mais comme une étape sur la trajectoire vers l'intelligence artificielle générale — une IA capable d'opérer sur des domaines variés avec la flexibilité d'un raisonnement humain. Si cette vision reste ambitieuse, la centralisation de la recherche dans un seul modèle de fondation robuste est une stratégie délibérée pour accélérer le rythme des itérations futures. Les concurrents devront désormais répondre non seulement à GPT-5.5, mais à toute une lignée de modèles qui en découleront, rendant la fenêtre de rattrapage plus étroite que jamais.

UELes développeurs et entreprises européens intégrant ChatGPT dans leurs workflows bénéficieront d'un modèle potentiellement plus précis, mais aucun impact réglementaire ou institutionnel direct sur la France ou l'UE n'est mentionné.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic