
Elle a quitté OpenAI et créé une IA qui discute (enfin) comme un humain
Mira Murati, ancienne directrice technique d'OpenAI, a présenté le 11 mai 2026 le premier modèle de sa société Thinking Machines : TML-Interaction-Small. Quatorze mois après son départ fracassant d'OpenAI, elle dévoile une IA vocale fondée sur un principe dit "full-duplex" : deux interlocuteurs peuvent parler en même temps, comme lors d'un vrai appel téléphonique. Techniquement, le système repose sur deux modèles distincts : le premier gère l'interaction en temps réel, voix, interruptions et rythme de la discussion, tandis que le second, plus lourd, traite en arrière-plan le raisonnement avancé, les recherches web et les appels d'outils externes. Les échanges sont découpés en micro-tours de 200 millisecondes, ce qui permet à l'IA de continuer à écouter même pendant qu'elle répond. La latence mesurée atteint 0,40 seconde, contre 0,57 pour Google Gemini 3.1 Flash Live et 1,18 seconde pour GPT-realtime-2.0 en mode minimal. Sur le benchmark FD-bench v1.5, conçu pour évaluer la fluidité des conversations vocales, TML-Interaction-Small obtient 77,8 points face aux 46,8 de GPT-realtime-2.0.
Ces performances marquent un vrai saut qualitatif dans l'interaction humain-machine. Une conversation humaine fluide s'articule autour de 200 à 250 millisecondes entre deux prises de parole : l'écart avec les assistants vocaux actuels se réduit sensiblement. Pour les utilisateurs, cela signifie la fin des silences gênants et des tours de parole rigides qui rendent les assistants vocaux pénibles à utiliser sur la durée. Pour l'industrie, cela ouvre des cas d'usage concrets dans les domaines médical, industriel ou scientifique, notamment grâce à une capacité que les grands modèles de langage classiques ne maîtrisent pas : la gestion du temps. TML-Interaction-Small peut comprendre et exécuter une instruction telle que "rappelle-moi de vérifier la température toutes les quatre minutes", là où des modèles comme Gemini se tromperaient encore régulièrement sur des notions temporelles simples.
Le lancement de Thinking Machines s'inscrit dans un moment charnière pour l'industrie de l'IA vocale. Mira Murati avait quitté OpenAI en septembre 2024 dans un contexte de turbulences internes, après avoir joué un rôle central dans le développement de GPT-4 et de ChatGPT. Sa société a levé des fonds considérables avant même d'annoncer un produit, ce qui témoigne de la confiance des investisseurs dans sa capacité à livrer. En proposant une architecture radicalement différente des modèles conversationnels dominants, Thinking Machines cherche à redéfinir ce que signifie "parler avec une IA". OpenAI, Google et d'autres acteurs travaillent également sur des interfaces vocales temps réel, mais TML-Interaction-Small constitue, pour l'heure, la démonstration la plus convaincante qu'une conversation naturelle avec une machine n'est plus un horizon lointain.
Les chiffres de latence sont les premiers depuis longtemps à ne pas me faire lever les yeux au ciel. 0,40 seconde contre 1,18 pour GPT-realtime, sur un benchmark qui mesure ce qui compte vraiment, la fluidité réelle, pas la vitesse de réponse brute. L'architecture deux modèles (un pour le flux en temps réel, un pour le raisonnement lourd en arrière-plan) c'est le bon design, reste à voir si ça tient à l'échelle.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



