
Microsoft lance 3 nouveaux modèles d'IA pour rivaliser avec OpenAI et Google
Microsoft a lancé mercredi trois nouveaux modèles d'intelligence artificielle développés entièrement en interne : MAI-Transcribe-1, un système de transcription vocale, MAI-Voice-1, un moteur de synthèse vocale, et MAI-Image-2, un générateur d'images amélioré. Disponibles immédiatement via Microsoft Foundry et un nouveau MAI Playground, ces modèles positionnent le géant du logiciel — valorisé 3 000 milliards de dollars — en concurrent direct d'OpenAI, Google et ElevenLabs sur le terrain du développement de modèles fondamentaux, et plus seulement sur leur distribution. MAI-Transcribe-1 affiche un taux d'erreur moyen de 3,8 % sur le benchmark FLEURS dans les 25 langues les plus utilisées dans les produits Microsoft, surpassant Whisper-large-v3 d'OpenAI sur l'ensemble de ces langues, et Gemini Flash de Google sur 22 d'entre elles. Le modèle traite les fichiers MP3, WAV et FLAC jusqu'à 200 Mo, avec une vitesse de transcription 2,5 fois supérieure à l'offre Azure actuelle, tout en consommant deux fois moins de GPU que la concurrence selon Microsoft. MAI-Voice-1 génère 60 secondes d'audio naturel en une seconde, à 22 dollars par million de caractères. MAI-Image-2, classé dans le top 3 sur Arena.ai, est déployé dans Bing et PowerPoint à 33 dollars par million de tokens image, et compte déjà WPP, le plus grand groupe publicitaire mondial, parmi ses premiers clients entreprise.
Ces trois modèles constituent la première réponse concrète de Microsoft à une pression considérable des investisseurs : l'action vient de clôturer son pire trimestre depuis la crise financière de 2008, alors que des centaines de milliards de dépenses en infrastructure IA tardent à se traduire en revenus. En développant ses propres modèles, Microsoft réduit son coût de revient en remplaçant progressivement les modèles tiers — à commencer par une intégration de MAI-Transcribe-1 dans Copilot Voice et Microsoft Teams. La stratégie d'« autosuffisance en IA », formulée par Mustafa Suleyman, patron de Microsoft AI, vise à transformer l'entreprise d'un distributeur de technologie externe en producteur de modèles de pointe.
Ce pivot n'aurait pas été possible sans un changement contractuel majeur survenu en octobre 2025. Le contrat originel de 2019 entre Microsoft et OpenAI interdisait explicitement à Microsoft de développer ses propres modèles d'intelligence artificielle générale en échange d'une licence sur les modèles d'OpenAI. La renégociation de cet accord a libéré Microsoft, qui a aussitôt constitué une équipe dédiée à la superintelligence — celle-là même qui vient de produire ces premiers résultats en six mois seulement. L'enjeu dépasse le seul marché de la transcription ou des images : Microsoft cherche à ne plus dépendre d'un partenaire unique pour alimenter ses produits phares, à l'heure où la compétition entre labs frontier s'intensifie et où chaque point de marge compte face à des coûts d'infrastructure colossaux.
Les développeurs et entreprises européens peuvent accéder immédiatement à ces modèles via Microsoft Foundry, avec un impact potentiel sur les choix de fournisseurs pour la transcription vocale, la synthèse et la génération d'images dans les produits Microsoft déjà largement déployés en Europe.



