Aller au contenu principal
CréationVentureBeat AI6sem

Microsoft lance MAI-Image-2-Efficient, un modèle de génération d'images plus rapide et moins coûteux

Résumé IASource uniqueImpact UE
Source originale ↗·

Microsoft a lancé ce mardi MAI-Image-2-Efficient, une version optimisée de son modèle phare de génération d'images MAI-Image-2, disponible immédiatement sur Microsoft Foundry et MAI Playground sans liste d'attente. Le modèle est facturé 5 dollars par million de tokens texte en entrée et 19,50 dollars par million de tokens image en sortie, soit une réduction de 41 % par rapport aux 33 dollars du modèle original pour les sorties image. Sur le plan technique, il tourne 22 % plus vite que son prédécesseur et affiche une efficacité quatre fois supérieure par GPU sur du matériel NVIDIA H100 en résolution 1024×1024. Microsoft affirme également le surpasser face aux modèles concurrents de Google, notamment Gemini 3.1 Flash, Gemini 3.1 Flash Image et Gemini 3 Pro Image, avec une latence médiane (p50) inférieure de 40 % en moyenne. Le modèle est aussi en cours de déploiement dans Copilot et Bing.

Cette sortie s'inscrit dans une stratégie à deux niveaux que Microsoft emprunte directement au manuel de l'industrie IA : MAI-Image-2-Efficient cible les usages industriels à fort volume et contraintes budgétaires serrées, comme la photographie produit, les créations marketing, les maquettes d'interface ou les pipelines d'assets de marque. MAI-Image-2 reste le modèle de précision pour les rendus photoréalistes exigeants, les styles complexes comme l'illustration ou l'anime, et la typographie élaborée intégrée à l'image. Cette approche duale, similaire aux déclinaisons GPT d'OpenAI, Haiku-Sonnet-Opus d'Anthropic ou Flash-Pro de Google, s'applique ici à la génération d'images, un domaine où le coût par image est souvent le facteur décisif pour un déploiement à l'échelle en production.

La vitesse de cette sortie est particulièrement significative : MAI-Image-2 n'avait été lancé sur MAI Playground que le 19 mars, avec une disponibilité élargie via Microsoft Foundry le 2 avril seulement, en même temps que deux autres modèles fondationnels, MAI-Transcribe-1 (reconnaissance vocale multilingue sur 25 langues) et MAI-Voice-1 (génération audio). Moins d'un mois s'est donc écoulé entre le lancement du modèle principal et celui de sa variante optimisée. Ce rythme illustre le mode de fonctionnement de la MAI Superintelligence Team, constituée en novembre 2025 sous la direction de Mustafa Suleyman, CEO de Microsoft AI : l'équipe opère davantage comme une startup en cycle court que comme un laboratoire de recherche traditionnel. Ce virage est stratégiquement crucial pour Microsoft, qui cherche à se doter d'une pile IA autonome, moins dépendante d'OpenAI. L'accueil est jusqu'ici favorable : selon Decrypt, MAI-Image-2 avait déjà atteint la troisième place du classement Arena.ai pour la génération d'images, derrière Google et OpenAI.

Impact France/UE

Les développeurs et entreprises européens sur Microsoft Foundry bénéficient immédiatement d'une réduction de coût de 41% pour leurs pipelines de génération d'images, sans impact réglementaire spécifique à la France ou l'UE.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio
1MarkTechPost 

Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio

Stability AI a publié cette semaine les poids ouverts de Stable Audio 3, une famille de modèles de diffusion latente dédiés à la génération et à l'édition audio. La gamme comprend quatre variantes : deux modèles "small" de 459 millions de paramètres (l'un spécialisé musique, l'autre effets sonores), un modèle "medium" de 1,4 milliard de paramètres capable de générer jusqu'à 6 minutes 20 secondes de musique et d'effets sonores, et un modèle "large" de 2,7 milliards de paramètres réservé à une licence entreprise. Les poids des variantes small et medium sont disponibles gratuitement sur Hugging Face. Tous les modèles produisent de l'audio stéréo en 44,1 kHz, prennent en charge des sorties de longueur variable, l'édition par inpainting, et une inférence rapide. L'architecture repose sur deux composants distincts. Le premier est SAME (Semantically-Aligned Music autoEncoder), un encodeur qui compresse l'audio en une représentation latente avec un ratio de downsampling de 4096x, nettement supérieur aux ratios habituels de 1024x à 2048x dans les systèmes concurrents. Cette compression élevée réduit suffisamment les séquences latentes pour que la génération de longue durée tourne sur du matériel grand public. Le second composant est un transformeur de diffusion qui opère sur ces latents, conditionné par le texte via un encodeur T5Gemma gelé, par la durée encodée en features de Fourier, et par des masques d'inpainting pour l'édition. Les modèles medium et large utilisent une "differential attention", une technique calculant deux cartes d'attention parallèles pour améliorer la précision du conditionnement. Cette publication intervient dans un contexte de compétition intense sur la génération audio par IA, où des acteurs comme Suno, Udio ou ElevenLabs ont imposé des standards élevés en termes de qualité et de facilité d'usage, mais avec des modèles entièrement fermés. En rendant ses poids accessibles, Stability AI maintient une posture d'ouverture qui lui a valu une réputation dans la communauté des chercheurs, malgré les turbulences financières et organisationnelles que l'entreprise a traversées ces deux dernières années. L'accompagnement d'un article de recherche technique détaillé sur arXiv renforce cette crédibilité académique. La capacité à éditer de l'audio existant via inpainting, et non seulement à en générer, représente une avancée pratique pour les professionnels du son, de la post-production et des jeux vidéo. La disponibilité d'un modèle small optimisé pour l'inférence CPU ouvre également la voie à des intégrations locales sans GPU, ce qui élargit considérablement le cercle des utilisateurs potentiels.

UELa mise à disposition des poids ouverts sur Hugging Face (plateforme française) facilite l'adoption par les développeurs et studios européens pour des usages en post-production et jeux vidéo, sans dépendance aux API américaines fermées.

CréationActu
1 source
ByteDance lance Seed3D 2.0, un modèle de fondation 3D de nouvelle génération
2Pandaily 

ByteDance lance Seed3D 2.0, un modèle de fondation 3D de nouvelle génération

ByteDance a officiellement lancé Seed3D 2.0, son nouveau modèle de fondation pour la génération 3D haute précision. Le rapport technique a été rendu public et l'API est désormais accessible via Volcano Engine, la plateforme cloud du groupe chinois. Selon ByteDance, Seed3D 2.0 atteint des performances de pointe dans deux domaines clés : la génération de géométrie 3D et le rendu de textures et matériaux. Pour valider ces résultats, l'entreprise a recruté 60 évaluateurs humains disposant d'une expérience en modélisation 3D, chargés d'effectuer des comparaisons en aveugle entre Seed3D 2.0 et six modèles concurrents. Le modèle a obtenu le taux de préférence le plus élevé en génération de géométrie, et dépasse 69 % de préférence dans les évaluations de contenus 3D texturés. Ces résultats illustrent un bond qualitatif significatif dans la génération automatique de contenus 3D. La reconstruction de structures complexes est nettement améliorée, et les matériaux PBR (Physically Based Rendering) produits par le modèle sont jugés plus réalistes et plus stables visuellement. Pour les secteurs du jeu vidéo, de la réalité virtuelle et de la production de contenus numériques, un tel outil pourrait considérablement accélérer les pipelines de création d'assets 3D, réduisant le temps et les coûts associés à la modélisation manuelle. ByteDance s'inscrit dans une course effrénée pour imposer ses modèles d'IA générative face aux géants américains. Le groupe, déjà connu pour TikTok et ses travaux sur les modèles de langage comme Doubao, étend désormais ses ambitions à la 3D générative, un marché encore peu consolidé. La disponibilité de l'API via Volcano Engine signale une volonté de monétiser rapidement cette technologie auprès des entreprises. Alors que des acteurs comme Stability AI, Meshy ou encore Luma AI cherchent à s'imposer dans ce créneau, l'entrée de ByteDance avec un modèle revendiquant l'état de l'art pourrait redistribuer les cartes dans un secteur en pleine ébullition.

UEL'API Seed3D 2.0 est distribuée via Volcano Engine, plateforme cloud de ByteDance peu déployée en Europe, ce qui freine l'adoption directe par les studios européens de jeux vidéo et de production 3D.

CréationActu
1 source
Qwen-Image-2.0 d'Alibaba divise par deux la compression et réduit les étapes de génération de 40 à 4
3The Decoder 

Qwen-Image-2.0 d'Alibaba divise par deux la compression et réduit les étapes de génération de 40 à 4

Alibaba a publié un rapport technique détaillant les innovations architecturales de Qwen-Image-2.0, son nouveau modèle de génération d'images. Le modèle compresse les images deux fois plus agressivement que la majorité de ses concurrents, s'appuie sur un transformeur remanié pour stabiliser l'entraînement, et intègre un module dédié qui étend automatiquement les prompts courts des utilisateurs en descriptions détaillées. Une version distillée du modèle ramène le nombre d'étapes de débruitage de 40 à seulement 4, sans sacrifier la qualité de sortie. Sur LMArena, plateforme de comparaisons en aveugle où des utilisateurs réels évaluent les modèles côte à côte, Qwen-Image-2.0 se classe actuellement 9e. Ce gain de vitesse est significatif pour les applications industrielles : passer de 40 à 4 étapes de débruitage réduit drastiquement le coût de calcul et le temps de réponse, rendant le modèle viable pour des usages en temps réel ou à grande échelle. L'expansion automatique des prompts abaisse aussi la barrière d'entrée pour les utilisateurs non experts, qui obtiennent de meilleurs résultats sans avoir à maîtriser l'art du prompt engineering. Alibaba s'inscrit dans une course intense à la génération d'images où Midjourney, Stability AI, Adobe Firefly et les modèles de Google et Meta rivalisent pour la suprématie technique. La stratégie de Qwen combine efficacité computationnelle et facilité d'usage, deux axes devenus centraux pour séduire les développeurs et les entreprises. La publication du rapport technique suggère qu'Alibaba cherche à attirer l'adoption internationale, notamment hors de Chine, en jouant la carte de la transparence.

UELes développeurs et entreprises européens peuvent bénéficier d'un modèle de génération d'images significativement plus rapide et moins coûteux en calcul, mais aucun impact réglementaire ou institutionnel direct sur la France ou l'UE.

💬 40 étapes à 4, sans perte de qualité, c'est le genre d'annonce qui mérite qu'on s'y arrête. L'extension automatique des prompts, c'est moins impressionnant que ça en a l'air (d'autres le font déjà), mais combinée au gain de vitesse, ça ouvre des usages temps réel qui n'étaient pas viables avant. Le 9e rang sur LMArena tempère un peu l'enthousiasme, faut pas se mentir.

CréationOpinion
1 source
Reve 1.5 : une entrée en 4K dans le haut de gamme des générateurs d’images
4Le Big Data 

Reve 1.5 : une entrée en 4K dans le haut de gamme des générateurs d’images

Reve AI, startup spécialisée dans la génération d'images par intelligence artificielle, a lancé Reve 1.5, son modèle de nouvelle génération capable de produire des visuels en résolution 4K. Cette version s'inscrit dans la continuité de Reve Image 1.0, sorti en 2025 et salué dès ses débuts pour sa cohérence visuelle et son réalisme. Reve 1.5 mise sur un équilibre entre qualité de rendu, rapidité de génération et fidélité au prompt, avec des temps de création jugés très compétitifs dans les tests indépendants. La plateforme intègre nativement des outils de génération de texte dans l'image, d'édition et de remix, le tout via une interface accessible aux utilisateurs non techniques. Pour les créateurs professionnels et les studios qui intègrent la génération d'images dans leurs workflows, Reve 1.5 représente une alternative crédible aux solutions dominantes. Là où d'autres modèles peinent avec la cohérence spatiale, proportions des personnages, logique des environnements, absence de détails incongrus, Reve 1.5 se distingue par des scènes structurées et visuellement stables. La résolution 4K ouvre par ailleurs la porte à des usages éditoriaux et publicitaires qui nécessitent des fichiers haute définition exploitables sans retraitement. Son positionnement haut de gamme, couplé à une interface simple, élargit le spectre des utilisateurs potentiels au-delà des seuls experts en prompting. Le marché de la génération d'images s'est considérablement durci entre 2024 et 2025, avec OpenAI, Google, Black Forest Labs (auteur du modèle FLUX) et Midjourney qui dominent les benchmarks et captent l'essentiel des usages. Reve AI n'ambitionne pas de détrôner ces acteurs, mais de s'installer durablement comme une référence crédible pour les créateurs qui cherchent un outil fiable, précis et régulièrement mis à jour. La startup affiche une limite assumée sur les styles artistiques, les imitations de Van Gogh ou de l'impressionnisme restent approximatives, une prudence que certains observateurs lisent comme un choix déontologique pour éviter la reproduction trop fidèle d'œuvres protégées. Avec Reve 1.5, l'entreprise franchit une étape significative en cohérence et en niveau de détail, et prépare le terrain pour des versions futures dans un secteur où le rythme d'innovation ne laisse aucune place à l'immobilisme.

UEOutil accessible aux créateurs français et européens pour leurs workflows de production visuelle, sans impact réglementaire ou institutionnel spécifique à la France ou à l'UE.

CréationOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour