CréationVentureBeat AI · 14 avr. 2026, 19:00· 2 min de lecture

Microsoft lance MAI-Image-2-Efficient, un modèle de génération d'images plus rapide et moins coûteux

Microsoft a lancé ce mardi MAI-Image-2-Efficient, une version optimisée de son modèle phare de génération d'images MAI-Image-2, disponible immédiatement sur Microsoft Foundry et MAI Playground sans liste d'attente. Le modèle est facturé 5 dollars par million de tokens texte en entrée et 19,50 dollars par million de tokens image en sortie, soit une réduction de 41 % par rapport aux 33 dollars du modèle original pour les sorties image. Sur le plan technique, il tourne 22 % plus vite que son prédécesseur et affiche une efficacité quatre fois supérieure par GPU sur du matériel NVIDIA H100 en résolution 1024×1024. Microsoft affirme également le surpasser face aux modèles concurrents de Google, notamment Gemini 3.1 Flash, Gemini 3.1 Flash Image et Gemini 3 Pro Image, avec une latence médiane (p50) inférieure de 40 % en moyenne. Le modèle est aussi en cours de déploiement dans Copilot et Bing.

Cette sortie s'inscrit dans une stratégie à deux niveaux que Microsoft emprunte directement au manuel de l'industrie IA : MAI-Image-2-Efficient cible les usages industriels à fort volume et contraintes budgétaires serrées, comme la photographie produit, les créations marketing, les maquettes d'interface ou les pipelines d'assets de marque. MAI-Image-2 reste le modèle de précision pour les rendus photoréalistes exigeants, les styles complexes comme l'illustration ou l'anime, et la typographie élaborée intégrée à l'image. Cette approche duale, similaire aux déclinaisons GPT d'OpenAI, Haiku-Sonnet-Opus d'Anthropic ou Flash-Pro de Google, s'applique ici à la génération d'images, un domaine où le coût par image est souvent le facteur décisif pour un déploiement à l'échelle en production.

La vitesse de cette sortie est particulièrement significative : MAI-Image-2 n'avait été lancé sur MAI Playground que le 19 mars, avec une disponibilité élargie via Microsoft Foundry le 2 avril seulement, en même temps que deux autres modèles fondationnels, MAI-Transcribe-1 (reconnaissance vocale multilingue sur 25 langues) et MAI-Voice-1 (génération audio). Moins d'un mois s'est donc écoulé entre le lancement du modèle principal et celui de sa variante optimisée. Ce rythme illustre le mode de fonctionnement de la MAI Superintelligence Team, constituée en novembre 2025 sous la direction de Mustafa Suleyman, CEO de Microsoft AI : l'équipe opère davantage comme une startup en cycle court que comme un laboratoire de recherche traditionnel. Ce virage est stratégiquement crucial pour Microsoft, qui cherche à se doter d'une pile IA autonome, moins dépendante d'OpenAI. L'accueil est jusqu'ici favorable : selon Decrypt, MAI-Image-2 avait déjà atteint la troisième place du classement Arena.ai pour la génération d'images, derrière Google et OpenAI.

Impact France/UE

Les développeurs et entreprises européens sur Microsoft Foundry bénéficient immédiatement d'une réduction de coût de 41% pour leurs pipelines de génération d'images, sans impact réglementaire spécifique à la France ou l'UE.

Dans nos dossiers

Microsoft OpenAI Gemini Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Ars Technica AI

« Nano Banana 2 Lite » de Google : son nouveau modèle d'image, le plus rapide et le moins cher à ce jour

Google DeepMind a dévoilé Nano Banana 2 Lite, son nouveau modèle de génération d'images, présenté comme le plus rapide et le moins coûteux de sa gamme. Techniquement baptisé Gemini 3.1 Flash Lite Image, il appartient à la famille Gemini 3.1 et est disponible dès aujourd'hui sur l'ensemble de l'écosystème Google. Sa principale promesse est de produire des images en une fraction du temps requis par les modèles plus lourds de l'entreprise, tout en conservant une qualité proche de celle des versions standard. Pour étayer cette affirmation, Google s'appuie sur des scores Elo issus de la plateforme Arena.ai, qui montrent que les utilisateurs évaluent les résultats de Nano Banana 2 Lite presque aussi favorablement que ceux des versions non allégées du modèle. Cette nouveauté répond à un problème concret du secteur : les modèles d'image les plus qualitatifs sont généralement lents et onéreux, ce qui freine leur usage pour des tâches d'itération rapide. En misant sur la vitesse et le faible coût, Google cible explicitement les usages de prototypage et d'exploration créative, où la rapidité d'exécution compte davantage que la perfection du rendu final. Pour les développeurs et créateurs qui génèrent de nombreuses variantes avant de retenir une image définitive, ce gain de réactivité peut réduire significativement les coûts d'infrastructure et accélérer les flux de travail créatifs. Google reconnaît toutefois des limites : le modèle peine davantage avec le texte intégré aux images, en particulier les caractères de petite taille, et les infographies générées contiennent plus souvent des données erronées. La cohérence des personnages et des visages d'une génération à l'autre reste également moins fiable que sur les modèles complets. Ces compromis illustrent une tendance plus large du secteur de l'IA générative, où les éditeurs déclinent désormais leurs modèles phares en versions allégées afin de répondre à des besoins différenciés selon les usages, qu'il s'agisse de production finale soignée ou de simple exploration d'idées à grande échelle.

CréationActu

1 source

2MarkTechPost

Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio

Stability AI a publié cette semaine les poids ouverts de Stable Audio 3, une famille de modèles de diffusion latente dédiés à la génération et à l'édition audio. La gamme comprend quatre variantes : deux modèles "small" de 459 millions de paramètres (l'un spécialisé musique, l'autre effets sonores), un modèle "medium" de 1,4 milliard de paramètres capable de générer jusqu'à 6 minutes 20 secondes de musique et d'effets sonores, et un modèle "large" de 2,7 milliards de paramètres réservé à une licence entreprise. Les poids des variantes small et medium sont disponibles gratuitement sur Hugging Face. Tous les modèles produisent de l'audio stéréo en 44,1 kHz, prennent en charge des sorties de longueur variable, l'édition par inpainting, et une inférence rapide. L'architecture repose sur deux composants distincts. Le premier est SAME (Semantically-Aligned Music autoEncoder), un encodeur qui compresse l'audio en une représentation latente avec un ratio de downsampling de 4096x, nettement supérieur aux ratios habituels de 1024x à 2048x dans les systèmes concurrents. Cette compression élevée réduit suffisamment les séquences latentes pour que la génération de longue durée tourne sur du matériel grand public. Le second composant est un transformeur de diffusion qui opère sur ces latents, conditionné par le texte via un encodeur T5Gemma gelé, par la durée encodée en features de Fourier, et par des masques d'inpainting pour l'édition. Les modèles medium et large utilisent une "differential attention", une technique calculant deux cartes d'attention parallèles pour améliorer la précision du conditionnement. Cette publication intervient dans un contexte de compétition intense sur la génération audio par IA, où des acteurs comme Suno, Udio ou ElevenLabs ont imposé des standards élevés en termes de qualité et de facilité d'usage, mais avec des modèles entièrement fermés. En rendant ses poids accessibles, Stability AI maintient une posture d'ouverture qui lui a valu une réputation dans la communauté des chercheurs, malgré les turbulences financières et organisationnelles que l'entreprise a traversées ces deux dernières années. L'accompagnement d'un article de recherche technique détaillé sur arXiv renforce cette crédibilité académique. La capacité à éditer de l'audio existant via inpainting, et non seulement à en générer, représente une avancée pratique pour les professionnels du son, de la post-production et des jeux vidéo. La disponibilité d'un modèle small optimisé pour l'inférence CPU ouvre également la voie à des intégrations locales sans GPU, ce qui élargit considérablement le cercle des utilisateurs potentiels.

UELa mise à disposition des poids ouverts sur Hugging Face (plateforme française) facilite l'adoption par les développeurs et studios européens pour des usages en post-production et jeux vidéo, sans dépendance aux API américaines fermées.

CréationActu

1 source

3The Decoder

Google lance Nano Banana 2 Lite pour la génération rapide d'images IA et Gemini Omni Flash pour la vidéo via API

Google enrichit sa gamme de modèles génératifs avec deux nouveaux outils. Nano Banana 2 Lite génère des images en quatre secondes, pour un coût de 0,034 dollar par image. Gemini Omni Flash, de son côté, fait son entrée dans l'API avec une capacité inédite pour Google : la génération et l'édition de vidéos à partir de simples prompts textuels. L'entreprise recommande d'ailleurs de chaîner les deux modèles pour un flux de travail complet, en partant d'une image générée rapidement puis en l'animant sous forme de vidéo courte. Cette double annonce répond à une demande croissante des développeurs pour des outils multimédias rapides et économiques, intégrables directement dans des applications ou des pipelines de production de contenu. La vitesse de génération de Nano Banana 2 Lite, quatre secondes seulement, en fait un candidat sérieux pour les cas d'usage nécessitant de la réactivité, comme les interfaces conversationnelles ou les générateurs de contenu en temps réel. Quant à Gemini Omni Flash, il ouvre la porte à des usages jusque là réservés à des outils spécialisés et coûteux, comme la retouche vidéo pilotée par texte, désormais accessible via une simple requête API. Cette annonce s'inscrit dans la compétition intense que se livrent les grands acteurs de l'IA générative, Google, OpenAI et Meta en tête, pour dominer le marché des outils de création multimédia. Après avoir lancé les premières versions de Nano Banana pour la génération d'images, Google accélère la cadence en misant sur la rapidité et le faible coût comme arguments de différenciation face à ses concurrents. L'intégration de la génération vidéo directement dans l'API Gemini marque aussi une étape vers des workflows entièrement automatisés, où texte, image et vidéo pourraient être générés et combinés sans intervention humaine, une tendance appelée à s'accélérer dans les mois à venir.

CréationActu

1 source

4Le Big Data

Comment Apple Image Playground réinvente la génération d’images et la retouche au doigt

Apple a officiellement dévoilé Image Playground en juin 2024 lors de la WWDC, sa conférence mondiale des développeurs, dans le cadre du projet global Apple Intelligence. L'application est devenue accessible aux utilisateurs américains en décembre 2024 avec le déploiement d'iOS 18.2, d'abord en version bêta. Dès son lancement, elle propose trois styles graphiques distincts : Animation, un rendu tridimensionnel inspiré des productions Pixar avec textures lisses et expressions exagérées ; Illustration, un style vectoriel épuré aux aplats de couleurs vives adapté aux documents professionnels ; et Esquisse, qui imite le dessin fait main avec des effets de crayon, fusain, aquarelle et papier grainé. L'application intègre également les Genmojis, des émojis générés à partir de l'apparence de l'utilisateur, directement dans l'application Messages. Ce qui distingue Apple Image Playground de la concurrence n'est pas seulement technique, c'est avant tout philosophique. La firme de Cupertino a délibérément refusé le photoréalisme dès le départ, un choix assumé par Craig Federighi lui-même lors des présentations publiques. L'objectif affiché est d'éviter que l'outil ne serve à fabriquer de fausses informations ou des manipulations visuelles malveillantes. En imposant des styles graphiques clairement identifiables comme artificiels, Apple se positionne comme un acteur responsable dans un marché où certains concurrents ont misé sur la génération d'images hyperréalistes sans garde-fous équivalents. Cette décision a rassuré les régulateurs et construit un capital de confiance auprès des consommateurs, transformant une contrainte éthique en argument commercial différenciant. Apple Image Playground s'inscrit dans une course généralisée des grandes entreprises technologiques à l'intégration de l'IA générative directement dans les systèmes d'exploitation. Google, Microsoft et Meta ont chacun déployé leurs propres outils de création visuelle, mais Apple mise sur une approche distincte : le traitement sur l'appareil lui-même, sans envoi de données vers des serveurs externes, pour garantir la confidentialité. Cette architecture imposait des contraintes matérielles strictes, limitant initialement la compatibilité aux appareils les plus récents. Les données collectées lors de la phase bêta américaine ont permis d'affiner les algorithmes et d'ouvrir la voie à des mises à jour majeures. La suite du développement laisse anticiper l'extension à d'autres marchés, de nouveaux styles graphiques, et une intégration plus profonde dans l'écosystème Apple, notamment dans les applications créatives tierces.

UEL'outil était initialement réservé aux utilisateurs américains ; l'extension à l'Europe reste conditionnée aux futures mises à jour iOS et aux exigences potentielles de l'AI Act en matière de transparence des contenus générés par IA.

CréationOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic