LLMsVentureBeat AI6sem· 2 min de lecture

Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel

Thinking Machines, la startup d'intelligence artificielle fondée par Mira Murati, ex-directrice technique d'OpenAI, et John Schulman, co-fondateur et ancien chercheur de la même entreprise, a dévoilé cette semaine un aperçu de recherche de ce qu'elle appelle des "modèles d'interaction", une nouvelle catégorie de systèmes multimodaux natifs conçus pour répondre en quasi-temps réel. Le modèle présenté, TML-Interaction-Small, repose sur une architecture de type Mixture-of-Experts (MoE) de 276 milliards de paramètres, dont seulement 12 milliards sont actifs simultanément. Il traite des blocs d'entrée et de sortie de 200 millisecondes en parallèle, ce qu'on appelle le "full duplex", permettant au système d'écouter, de parler et de voir en même temps. La startup précise qu'un aperçu limité sera ouvert dans les prochains mois pour collecter des retours, suivi d'une mise à disposition plus large d'ici la fin de l'année.

Ce que Thinking Machines cherche à résoudre est un problème structurel de tous les grands modèles actuels : leur incapacité à fonctionner autrement qu'en mode "tour par tour", où l'IA attend que l'utilisateur ait terminé avant de commencer à traiter, puis se fige pendant qu'elle génère une réponse. Cette contrainte force les utilisateurs à reformuler leurs pensées comme des emails, à tout regrouper en une seule requête. Avec une architecture "full duplex", le modèle peut interrompre naturellement, réagir à un signal visuel comme un bug dans un extrait de code, ou accueillir un interlocuteur qui entre dans le champ d'une vidéo, des comportements qui rendent l'interaction beaucoup plus proche d'une conversation humaine réelle. Les résultats sur les benchmarks tiers contre les modèles d'interaction rapide des autres grands laboratoires sont décrits comme convaincants, même si les détails précis restent à paraître.

Techniquement, le système s'écarte des pipelines conventionnels en abandonnant les encodeurs audio massifs comme Whisper au profit d'une fusion précoce sans encodeur, ingérant directement les signaux audio bruts sous forme dMel et des patches d'image de 40x40 pixels via une couche d'embedding légère, le tout co-entraîné au sein du transformer. Le système repose sur deux composants distincts : un "modèle d'interaction" qui gère le dialogue en continu, et un "modèle de fond" asynchrone chargé des raisonnements prolongés, de la navigation web ou des appels d'outils complexes, dont les résultats sont réintégrés fluidement dans la conversation. Thinking Machines s'inscrit dans une course qui voit OpenAI, Google et d'autres investir massivement dans les modèles temps réel depuis 2024, mais revendique une approche architecturale de premier niveau plutôt qu'un simple habillage logiciel, un pari technologique dont la portée réelle ne sera mesurable qu'à l'ouverture du preview public.

Dans nos dossiers

OpenAI

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Next INpact

IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte

Thinking Machines Lab, la start-up fondée par Mira Murati, ancienne directrice technique d'OpenAI, a présenté le 11 mai 2026 son modèle TLM-Interaction-Small, qu'elle qualifie de « modèle interactif ». Contrairement aux IA génératives classiques qui suspendent tout traitement le temps de formuler une réponse, ce système fonctionne en mode « full duplex » : il peut écouter, répondre et participer à une conversation en parallèle, avec un temps de latence de seulement 0,40 seconde, soit un rythme très proche d'un échange humain naturel. Parmi les capacités démontrées figurent la traduction instantanée de l'hindi vers l'anglais, l'adaptation stylistique d'un discours familier vers un registre professionnel, la recherche d'informations en cours de conversation, ou encore la réaction à des éléments visuels captés par caméra, comme détecter une mauvaise posture ou signaler une baisse de concentration. Ce type de modèle cherche à combler ce que Thinking Machines Lab appelle le « goulet d'étranglement de la collaboration » des IA actuelles : leur incapacité à rester présentes et réactives pendant qu'elles calculent. L'enjeu est de rendre l'interaction homme-machine plus fluide et naturelle, ce qui ouvre des perspectives concrètes pour des usages professionnels temps réel, comme l'assistance lors de réunions, la traduction simultanée ou le coaching comportemental en direct. Pour les utilisateurs et les entreprises, cela représente un changement qualitatif potentiellement significatif par rapport aux interfaces actuelles de type chatbot, où chaque échange reste fondamentalement séquentiel et coupé du contexte environnant. La start-up a été fondée en février 2025 et a levé 2 milliards de dollars dès juin de la même année, mais elle a depuis subi des départs importants : plusieurs employés ont été recrutés par Meta début 2026, et trois autres sont retournés chez OpenAI. Ces turbulences n'ont pas empêché l'avancement du projet. TLM-Interaction-Small n'est pas encore accessible au public : une préversion de recherche est attendue dans les prochains mois, et une sortie plus large est prévue plus tard en 2026. Le modèle s'inscrit dans une tendance plus large qui voit plusieurs acteurs chercher à dépasser les limites des IA génératives traditionnelles. Il se situe entre ces dernières et les ambitions des « world models », comme ceux qu'AMI Labs, co-fondée par Yann LeCun, Laurent Solly et Alexandre Lebrun, cherche à construire pour ancrer l'IA dans la compréhension du monde physique. Reste à voir si le produit final, une fois déployé, sera à la hauteur des benchmarks encourageants déjà publiés.

UEL'avènement des modèles full duplex ouvre une compétition directe avec des initiatives comme AMI Labs, co-fondée par des entrepreneurs français (Alexandre Lebrun, Laurent Solly), qui développent leurs propres modèles interactifs ancrés dans la compréhension du monde physique.

LLMsOpinion

1 source

2Latent Space

Thinking Machines : TML-Interaction-Small 276B-A12B fait progresser la voix en temps réel et supplante la VAD standard

Thinking Machines, une startup qui n'avait communiqué publiquement que deux fois en près d'un an, a levé le voile les 9-11 mai 2026 sur un modèle d'un genre nouveau : TML-Interaction-Small, un Mixture of Experts de 276 milliards de paramètres avec 12 milliards actifs en simultané. Contrairement aux assistants vocaux classiques, ce modèle n'a pas été construit en ajoutant une couche vocale sur un LLM texte existant : il a été entraîné dès le départ pour l'interaction en temps réel, capable d'écouter, parler, analyser des images et agir de façon simultanée, avec une latence inférieure à 200 ms sur les flux audio et vidéo. L'architecture, dite "encoder-free early fusion", s'inspire de travaux de Meta (Chameleon) et traite tous les types de données dans un flux unifié. Les benchmarks publiés montrent des scores supérieurs à GPT-Realtime-2 et Gemini 3.1-Flash sur des évaluations standards comme BigBench Audio et IFEval. Deux nouvelles métriques internes ont été créées pour mesurer des capacités inédites : TimeSpeak évalue si le modèle sait prendre la parole exactement au moment demandé par l'utilisateur, tandis que CueSpeak mesure sa capacité à réagir au bon instant face à des signaux contextuels, comme détecter automatiquement un changement de langue dans une conversation. Ce que Thinking Machines présente ici n'est pas un chatbot plus rapide : c'est un changement de paradigme dans l'interface humain-IA. Les systèmes actuels fonctionnent en mode tour par tour, créant une interaction artificielle et peu naturelle. TML-Interaction-Small abolit cette frontière : il peut interrompre, être interrompu, réagir à des événements visuels en continu et effectuer des recherches en arrière-plan sans signaler explicitement qu'il "réfléchit". La démo la plus marquante montre le modèle compter des pompes dans une vidéo en direct, ou alerter l'utilisateur dès qu'il commence à se voûter, des usages qui exigeaient jusqu'ici des pipelines dédiés et qui deviennent ici des capacités natives zéro-shot. Pour les développeurs d'applications voix et les industries intégrant de l'IA dans des environnements temps réel, cette architecture réduit considérablement la complexité technique. Cette sortie intervient le jour même où Neil Zeghidour, PDG de Gradium (le bras commercial de Kyutai, qui avait lancé Moshi, l'un des premiers vrais modèles voix temps réel), décrivait exactement ce qui restait à construire dans ce domaine, une coïncidence qui souligne l'intensité de la compétition. L'équipe de Thinking Machines réunit des noms de premier plan : John Schulman, co-fondateur de ChatGPT et ex-OpenAI, et Soumith Chintala, créateur de PyTorch chez Meta. La startup avait jusqu'ici maintenu un profil remarquablement discret depuis sa création, rendant ce troisième signal public d'autant plus significatif. Leurs notes de clôture évoquent en filigrane un prochain axe stratégique : combiner des agents de fond avec des modèles d'interaction, une direction qui pourrait redéfinir ce que signifie un assistant IA véritablement intégré dans le quotidien.

UELe lancement de TML-Interaction-Small intensifie la concurrence pour Kyutai, le laboratoire français auteur de Moshi, et souligne le retard potentiel des acteurs européens dans la course aux modèles vocaux temps réel natifs.

💬 Un modèle voix natif, pas un LLM avec un codec audio greffé dessus en dernière minute, ça change toute l'approche. Schulman et Chintala ne font pas les choses à moitié, et les métriques TimeSpeak et CueSpeak montrent qu'ils ont ciblé le bon problème : le timing dans la conversation, pas juste la latence brute. Pour Kyutai, ça va faire mal.

LLMsOpinion

1 source

3MarkTechPost

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion

1 source

4The Decoder

Thinking Machines Lab lance son premier modèle et juge qu'OpenAI rate la voix faute d'interactivité

Thinking Machines Lab, la start-up fondée par Mira Murati, ex-directrice technique d'OpenAI, a présenté son premier modèle d'intelligence artificielle multimodal. Le système traite simultanément de l'audio, de la vidéo et du texte en segments de 200 millisecondes, une architecture conçue pour produire des échanges vocaux quasi instantanés. La société positionne ce modèle comme un concurrent direct de GPT Realtime 2 d'OpenAI et de Gemini Live de Google, les deux références actuelles du marché de l'IA vocale en temps réel. L'argument central de Thinking Machines Lab est que l'IA vocale dominante souffre d'une limite fondamentale : elle reproduit un schéma questions-réponses, là où une vraie conversation humaine est fluide, interrompible, et non séquentielle. En traitant les flux en parallèle plutôt qu'en série, le modèle vise à permettre des interactions plus naturelles, où l'on peut couper la parole, nuancer ou rebondir sans attendre la fin d'une réponse. Pour les professionnels, assistants vocaux, interfaces client ou outils de collaboration, ce gain qualitatif représente un saut d'usage concret. Mira Murati a quitté OpenAI en septembre 2024 après plusieurs années à la tête de la direction technique, ayant piloté le lancement de ChatGPT et GPT-4. Thinking Machines Lab a depuis levé des fonds significatifs et réuni plusieurs anciens cadres d'OpenAI. La course à l'IA vocale interactive s'accélère, avec des enjeux majeurs sur les interfaces du futur : le modèle qui s'imposera comme le plus naturel aura un avantage décisif dans l'adoption grand public et enterprise.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic