Gradium lance stt-translate et s2s-translate, des modèles de traduction vocale en temps réel plus précis et plus rapides que gpt-realtime-translate
Gradium a lancé ce jeudi deux modèles de traduction vocale en temps réel, baptisés stt-translate et s2s-translate, qui s'attaquent directement aux offres de Google et d'OpenAI sur ce marché en pleine expansion. Les deux modèles couvrent cinq langues, anglais, français, allemand, espagnol et portugais, soit vingt paires de traduction dans toutes les directions. stt-translate convertit la parole d'une langue en texte dans une autre en un seul passage, sans transcription intermédiaire, en s'appuyant sur le cadre Hibiki-Zero et un entraînement par apprentissage par renforcement optimisant simultanément la précision et la latence. s2s-translate va plus loin en produisant directement de l'audio traduit depuis de l'audio source, en enchaînant stt-translate avec un modèle TTS de Gradium au sein d'un service unique accessible via WebSocket duplex. La latence moyenne annoncée est de 3,0 secondes, et les flux audio sont gérés en PCM 24 kHz en entrée et 48 kHz en sortie, avec support WAV, Opus, mu-law et A-law.
Sur le plan des performances, Gradium affirme surpasser gpt-realtime-translate d'OpenAI sur le score BLEU, la métrique historique de traduction automatique mesurant la fidélité lexicale, tout en étant comparable sur MetricX, le système d'évaluation neuronal de Google qui juge la qualité sémantique selon des critères proches du jugement humain. Face à gemini-3.5-live-translate de Google, Gradium l'emporte sur les deux métriques. La latence de 3,0 secondes se situe devant OpenAI (3,6 s) mais légèrement derrière Gemini (2,9 s), un écart marginal. La différenciation la plus concrète réside dans la flexibilité vocale : Gradium permet de choisir une voix dans un catalogue ou de cloner sa propre voix pour la sortie audio, une fonctionnalité absente chez gpt-realtime-translate et non précisée chez Gemini.
Ces modèles s'inscrivent dans une course accélérée à la traduction vocale temps réel, portée par des cas d'usage comme les réunions internationales, le service client multilingue et l'accessibilité. L'approche de Gradium, fusionner transcription et traduction en un seul modèle plutôt qu'enchaîner trois systèmes distincts, réduit la complexité d'intégration et les points de latence. C'est précisément le type d'architecture que les développeurs cherchent pour éviter de gérer plusieurs API et connexions en parallèle. En proposant ces modèles via une interface WebSocket unique avec streaming des résultats, Gradium vise les équipes produit qui construisent des expériences vocales multilingues sans vouloir assembler elles-mêmes une pipeline STT-MT-TTS. Le lancement positionne la startup face à deux des acteurs les plus capitalisés du secteur, avec des résultats de benchmarks qui, s'ils se confirment en production, pourraient en faire un concurrent sérieux sur ce segment.
Les développeurs européens construisant des applications vocales multilingues peuvent intégrer directement ces modèles via WebSocket, le français et l'allemand étant inclus parmi les cinq langues supportées dès le lancement.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




