LLMsMarkTechPost29min

Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA

Résumé IASource uniqueImpact UE

Le Thinking Machines Lab, le laboratoire de recherche fondé par Mira Murati, ancienne directrice technique d'OpenAI, a présenté une préversion publique de ce qu'il appelle des "modèles d'interaction" (interaction models). Cette architecture repose sur deux composants fonctionnant en parallèle : un modèle d'interaction actif en permanence, qui traite en continu flux audio, vidéo et texte par tranches de 200 millisecondes, et un modèle de raisonnement en arrière-plan qui prend en charge les tâches plus complexes comme la recherche web, l'utilisation d'outils ou la planification à long terme. Les deux modèles partagent le même contexte conversationnel à tout moment, et les résultats produits en arrière-plan sont réintégrés dans la conversation de façon fluide, au moment jugé opportun par le modèle principal.

Cette approche rompt avec la logique tour par tour qui structure aujourd'hui la quasi-totalité des systèmes d'IA conversationnelle. Dans ce paradigme classique, le modèle reste aveugle pendant que l'utilisateur parle ou tape, puis gèle toute perception pendant sa propre génération. Pour contourner cette limitation, les systèmes temps réel actuels s'appuient sur des composants auxiliaires assemblés en façade, comme la détection d'activité vocale (VAD), qui sont intrinsèquement moins intelligents que le modèle lui-même. Thinking Machines Lab soutient que cette architecture en patchwork est un plafond structurel : tant que l'interactivité reste une surcouche externe, elle ne bénéficie pas des gains en intelligence apportés par l'augmentation des paramètres. En intégrant la réactivité directement dans l'architecture du modèle, la collaboration humain-IA peut, selon eux, s'améliorer proportionnellement à la montée en puissance du modèle.

Mira Murati a quitté OpenAI en septembre 2024, après y avoir supervisé le lancement de GPT-4 et d'autres produits phares. Son nouveau laboratoire positionne explicitement cette recherche comme une réponse à la "bitter lesson" de l'apprentissage automatique : les systèmes conçus à la main finissent toujours par être dépassés par ceux qui généralisent à plus grande échelle. L'architecture sans encodeur (encoder-free early fusion) constitue le choix technique central permettant au modèle de traiter audio et vidéo sans passer par des modules préentraînés séparés, ce qui est la condition pour maintenir une cadence de 200 ms. La préversion présentée démontre des capacités concrètes : parler et écouter simultanément, réagir à des indices visuels sans sollicitation verbale, traiter plusieurs flux de parole en parallèle. Le laboratoire n'a pas encore annoncé de calendrier de déploiement ni de partenariats commerciaux, mais la publication intervient dans un contexte de course intense entre laboratoires pour définir ce que sera la prochaine génération d'interfaces IA.

Dans nos dossiers

OpenAI

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Thinking Machines Lab lance son premier modèle et juge qu'OpenAI rate la voix faute d'interactivité

Thinking Machines Lab, la start-up fondée par Mira Murati, ex-directrice technique d'OpenAI, a présenté son premier modèle d'intelligence artificielle multimodal. Le système traite simultanément de l'audio, de la vidéo et du texte en segments de 200 millisecondes, une architecture conçue pour produire des échanges vocaux quasi instantanés. La société positionne ce modèle comme un concurrent direct de GPT Realtime 2 d'OpenAI et de Gemini Live de Google, les deux références actuelles du marché de l'IA vocale en temps réel. L'argument central de Thinking Machines Lab est que l'IA vocale dominante souffre d'une limite fondamentale : elle reproduit un schéma questions-réponses, là où une vraie conversation humaine est fluide, interrompible, et non séquentielle. En traitant les flux en parallèle plutôt qu'en série, le modèle vise à permettre des interactions plus naturelles, où l'on peut couper la parole, nuancer ou rebondir sans attendre la fin d'une réponse. Pour les professionnels, assistants vocaux, interfaces client ou outils de collaboration, ce gain qualitatif représente un saut d'usage concret. Mira Murati a quitté OpenAI en septembre 2024 après plusieurs années à la tête de la direction technique, ayant piloté le lancement de ChatGPT et GPT-4. Thinking Machines Lab a depuis levé des fonds significatifs et réuni plusieurs anciens cadres d'OpenAI. La course à l'IA vocale interactive s'accélère, avec des enjeux majeurs sur les interfaces du futur : le modèle qui s'imposera comme le plus naturel aura un avantage décisif dans l'adoption grand public et enterprise.

LLMsOpinion

1 source

2VentureBeat AI

Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel

Thinking Machines, la startup d'intelligence artificielle fondée par Mira Murati, ex-directrice technique d'OpenAI, et John Schulman, co-fondateur et ancien chercheur de la même entreprise, a dévoilé cette semaine un aperçu de recherche de ce qu'elle appelle des "modèles d'interaction", une nouvelle catégorie de systèmes multimodaux natifs conçus pour répondre en quasi-temps réel. Le modèle présenté, TML-Interaction-Small, repose sur une architecture de type Mixture-of-Experts (MoE) de 276 milliards de paramètres, dont seulement 12 milliards sont actifs simultanément. Il traite des blocs d'entrée et de sortie de 200 millisecondes en parallèle, ce qu'on appelle le "full duplex", permettant au système d'écouter, de parler et de voir en même temps. La startup précise qu'un aperçu limité sera ouvert dans les prochains mois pour collecter des retours, suivi d'une mise à disposition plus large d'ici la fin de l'année. Ce que Thinking Machines cherche à résoudre est un problème structurel de tous les grands modèles actuels : leur incapacité à fonctionner autrement qu'en mode "tour par tour", où l'IA attend que l'utilisateur ait terminé avant de commencer à traiter, puis se fige pendant qu'elle génère une réponse. Cette contrainte force les utilisateurs à reformuler leurs pensées comme des emails, à tout regrouper en une seule requête. Avec une architecture "full duplex", le modèle peut interrompre naturellement, réagir à un signal visuel comme un bug dans un extrait de code, ou accueillir un interlocuteur qui entre dans le champ d'une vidéo, des comportements qui rendent l'interaction beaucoup plus proche d'une conversation humaine réelle. Les résultats sur les benchmarks tiers contre les modèles d'interaction rapide des autres grands laboratoires sont décrits comme convaincants, même si les détails précis restent à paraître. Techniquement, le système s'écarte des pipelines conventionnels en abandonnant les encodeurs audio massifs comme Whisper au profit d'une fusion précoce sans encodeur, ingérant directement les signaux audio bruts sous forme dMel et des patches d'image de 40x40 pixels via une couche d'embedding légère, le tout co-entraîné au sein du transformer. Le système repose sur deux composants distincts : un "modèle d'interaction" qui gère le dialogue en continu, et un "modèle de fond" asynchrone chargé des raisonnements prolongés, de la navigation web ou des appels d'outils complexes, dont les résultats sont réintégrés fluidement dans la conversation. Thinking Machines s'inscrit dans une course qui voit OpenAI, Google et d'autres investir massivement dans les modèles temps réel depuis 2024, mais revendique une approche architecturale de premier niveau plutôt qu'un simple habillage logiciel, un pari technologique dont la portée réelle ne sera mesurable qu'à l'ouverture du preview public.

LLMsOpinion

1 source

3Next INpact

IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte

Thinking Machines Lab, la start-up fondée par Mira Murati, ancienne directrice technique d'OpenAI, a présenté le 11 mai 2026 son modèle TLM-Interaction-Small, qu'elle qualifie de « modèle interactif ». Contrairement aux IA génératives classiques qui suspendent tout traitement le temps de formuler une réponse, ce système fonctionne en mode « full duplex » : il peut écouter, répondre et participer à une conversation en parallèle, avec un temps de latence de seulement 0,40 seconde, soit un rythme très proche d'un échange humain naturel. Parmi les capacités démontrées figurent la traduction instantanée de l'hindi vers l'anglais, l'adaptation stylistique d'un discours familier vers un registre professionnel, la recherche d'informations en cours de conversation, ou encore la réaction à des éléments visuels captés par caméra, comme détecter une mauvaise posture ou signaler une baisse de concentration. Ce type de modèle cherche à combler ce que Thinking Machines Lab appelle le « goulet d'étranglement de la collaboration » des IA actuelles : leur incapacité à rester présentes et réactives pendant qu'elles calculent. L'enjeu est de rendre l'interaction homme-machine plus fluide et naturelle, ce qui ouvre des perspectives concrètes pour des usages professionnels temps réel, comme l'assistance lors de réunions, la traduction simultanée ou le coaching comportemental en direct. Pour les utilisateurs et les entreprises, cela représente un changement qualitatif potentiellement significatif par rapport aux interfaces actuelles de type chatbot, où chaque échange reste fondamentalement séquentiel et coupé du contexte environnant. La start-up a été fondée en février 2025 et a levé 2 milliards de dollars dès juin de la même année, mais elle a depuis subi des départs importants : plusieurs employés ont été recrutés par Meta début 2026, et trois autres sont retournés chez OpenAI. Ces turbulences n'ont pas empêché l'avancement du projet. TLM-Interaction-Small n'est pas encore accessible au public : une préversion de recherche est attendue dans les prochains mois, et une sortie plus large est prévue plus tard en 2026. Le modèle s'inscrit dans une tendance plus large qui voit plusieurs acteurs chercher à dépasser les limites des IA génératives traditionnelles. Il se situe entre ces dernières et les ambitions des « world models », comme ceux qu'AMI Labs, co-fondée par Yann LeCun, Laurent Solly et Alexandre Lebrun, cherche à construire pour ancrer l'IA dans la compréhension du monde physique. Reste à voir si le produit final, une fois déployé, sera à la hauteur des benchmarks encourageants déjà publiés.

UEL'avènement des modèles full duplex ouvre une compétition directe avec des initiatives comme AMI Labs, co-fondée par des entrepreneurs français (Alexandre Lebrun, Laurent Solly), qui développent leurs propres modèles interactifs ancrés dans la compréhension du monde physique.

LLMsOpinion

1 source

4MarkTechPost

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour