StepFun lance StepAudio 2.5 Realtime : un modèle vocal bout-en-bout avec RLHF dédié au jeu de rôle et compréhension paraverbale
Le laboratoire d'intelligence artificielle shanghaïen StepFun a lancé StepAudio 2.5 Realtime, un modèle vocal en temps réel de bout en bout capable de maintenir des personnages stables lors de conversations prolongées. Contrairement aux systèmes classiques qui enchaînent reconnaissance vocale, raisonnement et synthèse en étapes séparées, StepAudio 2.5 Realtime traite l'audio en entrée et produit de l'audio en sortie au sein d'un unique système unifié, sans pipeline intermédiaire. Le modèle supporte le chinois et l'anglais, et s'intègre via une API WebSocket à l'adresse wss://api.stepfun.com/v1/realtime. Sur les cinq dimensions évaluées lors de benchmarks conduits en avril 2026, le modèle s'est classé premier : 80,41 en évaluation humaine subjective, 86,36 en dialogue général, 84,80 en scénario automobile, 79,80 en questions-réponses orales sur 11 tâches de compréhension audio, et 82,18 en compréhension paralinguistique.
Ce que distingue fondamentalement ce modèle, c'est sa capacité à percevoir et interpréter les signaux paralinguistiques, c'est-à-dire les informations acoustiques non verbales comme le ton, le débit de parole, les pauses, les soupirs ou les rires. En analysant ces éléments directement sur les caractéristiques audio plutôt que sur la transcription textuelle, le modèle peut détecter la fatigue dans un ton bas ou la frustration dans un débit rapide, adaptant ainsi ses réponses à l'état émotionnel de l'interlocuteur. Par ailleurs, StepFun a appliqué un entraînement par renforcement à partir de retours humains (RLHF) spécifiquement dédié à la cohérence de personnage dans les scénarios de roleplay, ciblant directement le problème bien connu de dérive hors-personnage qui affecte la plupart des agents conversationnels actuels. Combinée à une fusion profonde entre compréhension et génération vocale, cette approche permet au modèle de calibrer un registre émotionnel global sur une réponse tout en ajustant les détails acoustiques fins au niveau de chaque phrase.
StepFun s'est appuyé sur plus de 10 000 personas rédigés nativement, amplifiés algorithmiquement pour constituer une matrice de données à l'échelle du million, couplée à des millions d'échantillons conversationnels réels. Cette stratégie d'augmentation évite l'étiquetage manuel massif tout en garantissant la robustesse sur des sujets conversationnels rares ou complexes. Le lancement de StepAudio 2.5 Realtime s'inscrit dans une compétition croissante autour des interfaces vocales en temps réel, où OpenAI, Google et plusieurs acteurs asiatiques investissent massivement. La capacité à maintenir un personnage cohérent sur la durée, combinée à une compréhension émotionnelle fine, positionne ce type de modèle comme une brique centrale pour les assistants embarqués, la téléphonie automatisée et les applications de compagnonnage interactif.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



