
Microsoft lance MAI-Image-2-Efficient, un modèle de génération d'images plus rapide et moins coûteux
Microsoft a lancé ce mardi MAI-Image-2-Efficient, une version optimisée de son modèle phare de génération d'images MAI-Image-2, disponible immédiatement sur Microsoft Foundry et MAI Playground sans liste d'attente. Le modèle est facturé 5 dollars par million de tokens texte en entrée et 19,50 dollars par million de tokens image en sortie, soit une réduction de 41 % par rapport aux 33 dollars du modèle original pour les sorties image. Sur le plan technique, il tourne 22 % plus vite que son prédécesseur et affiche une efficacité quatre fois supérieure par GPU sur du matériel NVIDIA H100 en résolution 1024×1024. Microsoft affirme également le surpasser face aux modèles concurrents de Google, notamment Gemini 3.1 Flash, Gemini 3.1 Flash Image et Gemini 3 Pro Image, avec une latence médiane (p50) inférieure de 40 % en moyenne. Le modèle est aussi en cours de déploiement dans Copilot et Bing.
Cette sortie s'inscrit dans une stratégie à deux niveaux que Microsoft emprunte directement au manuel de l'industrie IA : MAI-Image-2-Efficient cible les usages industriels à fort volume et contraintes budgétaires serrées, comme la photographie produit, les créations marketing, les maquettes d'interface ou les pipelines d'assets de marque. MAI-Image-2 reste le modèle de précision pour les rendus photoréalistes exigeants, les styles complexes comme l'illustration ou l'anime, et la typographie élaborée intégrée à l'image. Cette approche duale, similaire aux déclinaisons GPT d'OpenAI, Haiku-Sonnet-Opus d'Anthropic ou Flash-Pro de Google, s'applique ici à la génération d'images, un domaine où le coût par image est souvent le facteur décisif pour un déploiement à l'échelle en production.
La vitesse de cette sortie est particulièrement significative : MAI-Image-2 n'avait été lancé sur MAI Playground que le 19 mars, avec une disponibilité élargie via Microsoft Foundry le 2 avril seulement, en même temps que deux autres modèles fondationnels, MAI-Transcribe-1 (reconnaissance vocale multilingue sur 25 langues) et MAI-Voice-1 (génération audio). Moins d'un mois s'est donc écoulé entre le lancement du modèle principal et celui de sa variante optimisée. Ce rythme illustre le mode de fonctionnement de la MAI Superintelligence Team, constituée en novembre 2025 sous la direction de Mustafa Suleyman, CEO de Microsoft AI : l'équipe opère davantage comme une startup en cycle court que comme un laboratoire de recherche traditionnel. Ce virage est stratégiquement crucial pour Microsoft, qui cherche à se doter d'une pile IA autonome, moins dépendante d'OpenAI. L'accueil est jusqu'ici favorable : selon Decrypt, MAI-Image-2 avait déjà atteint la troisième place du classement Arena.ai pour la génération d'images, derrière Google et OpenAI.
Les développeurs et entreprises européens sur Microsoft Foundry bénéficient immédiatement d'une réduction de coût de 41% pour leurs pipelines de génération d'images, sans impact réglementaire spécifique à la France ou l'UE.



