Aller au contenu principal
LLMsVentureBeat AI58min

Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel

Résumé IASource uniqueImpact UE
Source originale ↗·

Thinking Machines, la startup d'intelligence artificielle fondée par Mira Murati, ex-directrice technique d'OpenAI, et John Schulman, co-fondateur et ancien chercheur de la même entreprise, a dévoilé cette semaine un aperçu de recherche de ce qu'elle appelle des "modèles d'interaction", une nouvelle catégorie de systèmes multimodaux natifs conçus pour répondre en quasi-temps réel. Le modèle présenté, TML-Interaction-Small, repose sur une architecture de type Mixture-of-Experts (MoE) de 276 milliards de paramètres, dont seulement 12 milliards sont actifs simultanément. Il traite des blocs d'entrée et de sortie de 200 millisecondes en parallèle, ce qu'on appelle le "full duplex", permettant au système d'écouter, de parler et de voir en même temps. La startup précise qu'un aperçu limité sera ouvert dans les prochains mois pour collecter des retours, suivi d'une mise à disposition plus large d'ici la fin de l'année.

Ce que Thinking Machines cherche à résoudre est un problème structurel de tous les grands modèles actuels : leur incapacité à fonctionner autrement qu'en mode "tour par tour", où l'IA attend que l'utilisateur ait terminé avant de commencer à traiter, puis se fige pendant qu'elle génère une réponse. Cette contrainte force les utilisateurs à reformuler leurs pensées comme des emails, à tout regrouper en une seule requête. Avec une architecture "full duplex", le modèle peut interrompre naturellement, réagir à un signal visuel comme un bug dans un extrait de code, ou accueillir un interlocuteur qui entre dans le champ d'une vidéo, des comportements qui rendent l'interaction beaucoup plus proche d'une conversation humaine réelle. Les résultats sur les benchmarks tiers contre les modèles d'interaction rapide des autres grands laboratoires sont décrits comme convaincants, même si les détails précis restent à paraître.

Techniquement, le système s'écarte des pipelines conventionnels en abandonnant les encodeurs audio massifs comme Whisper au profit d'une fusion précoce sans encodeur, ingérant directement les signaux audio bruts sous forme dMel et des patches d'image de 40x40 pixels via une couche d'embedding légère, le tout co-entraîné au sein du transformer. Le système repose sur deux composants distincts : un "modèle d'interaction" qui gère le dialogue en continu, et un "modèle de fond" asynchrone chargé des raisonnements prolongés, de la navigation web ou des appels d'outils complexes, dont les résultats sont réintégrés fluidement dans la conversation. Thinking Machines s'inscrit dans une course qui voit OpenAI, Google et d'autres investir massivement dans les modèles temps réel depuis 2024, mais revendique une approche architecturale de premier niveau plutôt qu'un simple habillage logiciel, un pari technologique dont la portée réelle ne sera mesurable qu'à l'ouverture du preview public.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
1MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel
2MarkTechPost 

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion
1 source
Interaction en Temps Réel : Des Conversations Quotidiennes Plus Fluides et Plus Utiles
3OpenAI Blog 

Interaction en Temps Réel : Des Conversations Quotidiennes Plus Fluides et Plus Utiles

GPT-5.3 Instant améliore les conversations quotidiennes, offrant des interactions plus fluides et plus utiles, avec une meilleure compréhension et réponse adaptée aux contextes.

LLMsOutil
1 source
Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel
4MarkTechPost 

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale en poids ouverts, marquant l'entrée officielle de la startup française dans la génération audio. Publié sous licence CC BY-NC, le modèle repose sur une architecture hybride de 4 milliards de paramètres répartis en trois composants distincts : un décodeur Transformer de 3,4 milliards de paramètres basé sur l'architecture Ministral pour la compréhension du texte, un transformeur acoustique à flux de 390 millions de paramètres pour convertir les représentations sémantiques en caractéristiques sonores, et un codec neural de 300 millions de paramètres pour restituer une forme d'onde audio haute fidélité. Le modèle supporte neuf langues nativement — anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe — avec une attention portée aux dialectes régionaux et à la prosodie locale. Il permet également le clonage vocal zero-shot à partir de seulement trois secondes d'audio de référence. Les performances annoncées positionnent Voxtral TTS comme une alternative sérieuse aux API vocales propriétaires : le modèle atteint une latence de 70 millisecondes pour un échantillon de dix secondes (500 caractères en entrée), et un facteur temps réel d'environ 9,7x, ce qui signifie qu'il génère de l'audio près de dix fois plus vite que la durée de parole produite. Pour les développeurs qui construisent des agents conversationnels, des systèmes de traduction simultanée ou des interfaces vocales à fort trafic, cela se traduit par une réduction concrète des coûts de calcul et la capacité à absorber des charges élevées sur du matériel d'inférence standard. La séparation entre couche sémantique et couche acoustique garantit par ailleurs une cohérence sur de longs passages tout en préservant les nuances fines de la voix. Voxtral TTS s'inscrit dans une stratégie cohérente de Mistral : compléter sa pile technologique couche par couche, après ses modèles de transcription et de langage, pour proposer désormais l'ensemble du pipeline audio en open-weight. Face à des API fermées comme celles d'OpenAI ou ElevenLabs, l'offre de Mistral mise sur la souveraineté des données et l'absence de dépendance tarifaire — un argument qui résonne particulièrement auprès des entreprises européennes soumises au RGPD. La capacité d'adaptation vocale par few-shot ouvre également la voie à des expériences personnalisées à grande échelle, des voix de marque cohérentes aux assistants localisés, sans recourir à des phases de fine-tuning coûteuses. La prochaine étape logique pour Mistral serait d'intégrer Voxtral TTS dans une offre unifiée speech-to-speech, complétant le cycle entrée-sortie audio de bout en bout.

UEMistral AI, startup française, lance son premier modèle vocal open-weight, offrant aux entreprises européennes une alternative souveraine aux API fermées pour la synthèse vocale, sans dépendance tarifaire et conforme au RGPD.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour