Aller au contenu principal
Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio
CréationMarkTechPost8h

Stability AI lance Stable Audio 3 : une famille de modèles de diffusion latente rapides pour la génération et l'édition audio

Résumé IASource uniqueImpact UE
Source originale ↗·

Stability AI a publié cette semaine les poids ouverts de Stable Audio 3, une famille de modèles de diffusion latente dédiés à la génération et à l'édition audio. La gamme comprend quatre variantes : deux modèles "small" de 459 millions de paramètres (l'un spécialisé musique, l'autre effets sonores), un modèle "medium" de 1,4 milliard de paramètres capable de générer jusqu'à 6 minutes 20 secondes de musique et d'effets sonores, et un modèle "large" de 2,7 milliards de paramètres réservé à une licence entreprise. Les poids des variantes small et medium sont disponibles gratuitement sur Hugging Face. Tous les modèles produisent de l'audio stéréo en 44,1 kHz, prennent en charge des sorties de longueur variable, l'édition par inpainting, et une inférence rapide.

L'architecture repose sur deux composants distincts. Le premier est SAME (Semantically-Aligned Music autoEncoder), un encodeur qui compresse l'audio en une représentation latente avec un ratio de downsampling de 4096x, nettement supérieur aux ratios habituels de 1024x à 2048x dans les systèmes concurrents. Cette compression élevée réduit suffisamment les séquences latentes pour que la génération de longue durée tourne sur du matériel grand public. Le second composant est un transformeur de diffusion qui opère sur ces latents, conditionné par le texte via un encodeur T5Gemma gelé, par la durée encodée en features de Fourier, et par des masques d'inpainting pour l'édition. Les modèles medium et large utilisent une "differential attention", une technique calculant deux cartes d'attention parallèles pour améliorer la précision du conditionnement.

Cette publication intervient dans un contexte de compétition intense sur la génération audio par IA, où des acteurs comme Suno, Udio ou ElevenLabs ont imposé des standards élevés en termes de qualité et de facilité d'usage, mais avec des modèles entièrement fermés. En rendant ses poids accessibles, Stability AI maintient une posture d'ouverture qui lui a valu une réputation dans la communauté des chercheurs, malgré les turbulences financières et organisationnelles que l'entreprise a traversées ces deux dernières années. L'accompagnement d'un article de recherche technique détaillé sur arXiv renforce cette crédibilité académique. La capacité à éditer de l'audio existant via inpainting, et non seulement à en générer, représente une avancée pratique pour les professionnels du son, de la post-production et des jeux vidéo. La disponibilité d'un modèle small optimisé pour l'inférence CPU ouvre également la voie à des intégrations locales sans GPU, ce qui élargit considérablement le cercle des utilisateurs potentiels.

Impact France/UE

La mise à disposition des poids ouverts sur Hugging Face (plateforme française) facilite l'adoption par les développeurs et studios européens pour des usages en post-production et jeux vidéo, sans dépendance aux API américaines fermées.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI 

Microsoft lance MAI-Image-2-Efficient, un modèle de génération d'images plus rapide et moins coûteux

Microsoft a lancé ce mardi MAI-Image-2-Efficient, une version optimisée de son modèle phare de génération d'images MAI-Image-2, disponible immédiatement sur Microsoft Foundry et MAI Playground sans liste d'attente. Le modèle est facturé 5 dollars par million de tokens texte en entrée et 19,50 dollars par million de tokens image en sortie, soit une réduction de 41 % par rapport aux 33 dollars du modèle original pour les sorties image. Sur le plan technique, il tourne 22 % plus vite que son prédécesseur et affiche une efficacité quatre fois supérieure par GPU sur du matériel NVIDIA H100 en résolution 1024×1024. Microsoft affirme également le surpasser face aux modèles concurrents de Google, notamment Gemini 3.1 Flash, Gemini 3.1 Flash Image et Gemini 3 Pro Image, avec une latence médiane (p50) inférieure de 40 % en moyenne. Le modèle est aussi en cours de déploiement dans Copilot et Bing. Cette sortie s'inscrit dans une stratégie à deux niveaux que Microsoft emprunte directement au manuel de l'industrie IA : MAI-Image-2-Efficient cible les usages industriels à fort volume et contraintes budgétaires serrées, comme la photographie produit, les créations marketing, les maquettes d'interface ou les pipelines d'assets de marque. MAI-Image-2 reste le modèle de précision pour les rendus photoréalistes exigeants, les styles complexes comme l'illustration ou l'anime, et la typographie élaborée intégrée à l'image. Cette approche duale, similaire aux déclinaisons GPT d'OpenAI, Haiku-Sonnet-Opus d'Anthropic ou Flash-Pro de Google, s'applique ici à la génération d'images, un domaine où le coût par image est souvent le facteur décisif pour un déploiement à l'échelle en production. La vitesse de cette sortie est particulièrement significative : MAI-Image-2 n'avait été lancé sur MAI Playground que le 19 mars, avec une disponibilité élargie via Microsoft Foundry le 2 avril seulement, en même temps que deux autres modèles fondationnels, MAI-Transcribe-1 (reconnaissance vocale multilingue sur 25 langues) et MAI-Voice-1 (génération audio). Moins d'un mois s'est donc écoulé entre le lancement du modèle principal et celui de sa variante optimisée. Ce rythme illustre le mode de fonctionnement de la MAI Superintelligence Team, constituée en novembre 2025 sous la direction de Mustafa Suleyman, CEO de Microsoft AI : l'équipe opère davantage comme une startup en cycle court que comme un laboratoire de recherche traditionnel. Ce virage est stratégiquement crucial pour Microsoft, qui cherche à se doter d'une pile IA autonome, moins dépendante d'OpenAI. L'accueil est jusqu'ici favorable : selon Decrypt, MAI-Image-2 avait déjà atteint la troisième place du classement Arena.ai pour la génération d'images, derrière Google et OpenAI.

UELes développeurs et entreprises européens sur Microsoft Foundry bénéficient immédiatement d'une réduction de coût de 41% pour leurs pipelines de génération d'images, sans impact réglementaire spécifique à la France ou l'UE.

CréationOpinion
1 source
ByteDance lance Seed3D 2.0, un modèle de fondation 3D de nouvelle génération
2Pandaily 

ByteDance lance Seed3D 2.0, un modèle de fondation 3D de nouvelle génération

ByteDance a officiellement lancé Seed3D 2.0, son nouveau modèle de fondation pour la génération 3D haute précision. Le rapport technique a été rendu public et l'API est désormais accessible via Volcano Engine, la plateforme cloud du groupe chinois. Selon ByteDance, Seed3D 2.0 atteint des performances de pointe dans deux domaines clés : la génération de géométrie 3D et le rendu de textures et matériaux. Pour valider ces résultats, l'entreprise a recruté 60 évaluateurs humains disposant d'une expérience en modélisation 3D, chargés d'effectuer des comparaisons en aveugle entre Seed3D 2.0 et six modèles concurrents. Le modèle a obtenu le taux de préférence le plus élevé en génération de géométrie, et dépasse 69 % de préférence dans les évaluations de contenus 3D texturés. Ces résultats illustrent un bond qualitatif significatif dans la génération automatique de contenus 3D. La reconstruction de structures complexes est nettement améliorée, et les matériaux PBR (Physically Based Rendering) produits par le modèle sont jugés plus réalistes et plus stables visuellement. Pour les secteurs du jeu vidéo, de la réalité virtuelle et de la production de contenus numériques, un tel outil pourrait considérablement accélérer les pipelines de création d'assets 3D, réduisant le temps et les coûts associés à la modélisation manuelle. ByteDance s'inscrit dans une course effrénée pour imposer ses modèles d'IA générative face aux géants américains. Le groupe, déjà connu pour TikTok et ses travaux sur les modèles de langage comme Doubao, étend désormais ses ambitions à la 3D générative, un marché encore peu consolidé. La disponibilité de l'API via Volcano Engine signale une volonté de monétiser rapidement cette technologie auprès des entreprises. Alors que des acteurs comme Stability AI, Meshy ou encore Luma AI cherchent à s'imposer dans ce créneau, l'entrée de ByteDance avec un modèle revendiquant l'état de l'art pourrait redistribuer les cartes dans un secteur en pleine ébullition.

UEL'API Seed3D 2.0 est distribuée via Volcano Engine, plateforme cloud de ByteDance peu déployée en Europe, ce qui freine l'adoption directe par les studios européens de jeux vidéo et de production 3D.

CréationActu
1 source
Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini
3MarkTechPost 

Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini

Google a lancé Veo 3.1 Lite, un nouveau palier de son portefeuille de génération vidéo par IA, désormais disponible via l'API Gemini et Google AI Studio pour les utilisateurs en abonnement payant. Ce modèle se distingue par son positionnement tarifaire agressif : il offre la même vitesse de génération que le modèle Veo 3.1 Fast existant, mais à environ moitié moins cher. Concrètement, la génération en 720p est facturée 0,05 dollar par seconde, et 0,08 dollar par seconde en 1080p — des tarifs qui contrastent avec les plusieurs dollars par minute couramment pratiqués sur le marché de la vidéo IA haute qualité. Le modèle prend en charge des clips de 4, 6 ou 8 secondes, aux formats 16:9 et 9:16, avec une résolution maximale de 1080p (contrairement au Veo 3.1 flagship qui monte jusqu'au 4K). Il reconnaît également des directives cinématographiques précises dans les prompts, comme les instructions de panoramique, d'inclinaison ou d'éclairage. Pour les développeurs qui construisent des applications à fort volume — génération dynamique de publicités, automatisation de contenus pour les réseaux sociaux, prototypage itératif — le coût a longtemps constitué le principal frein à l'adoption industrielle de la vidéo générative. En divisant approximativement la facture par deux sans sacrifier la latence, Google ouvre la voie à des cas d'usage jusqu'ici économiquement inviables. L'intégration passe par l'API Gemini en REST ou gRPC, compatible avec les stacks Python et Node.js existants, ce qui réduit la friction d'adoption pour les équipes déjà dans l'écosystème Google. Chaque vidéo générée intègre également SynthID, le filigrane numérique invisible développé par Google DeepMind : imperceptible à l'œil nu, il reste détectable par des logiciels spécialisés, ce qui répond aux exigences croissantes de traçabilité du contenu synthétique. Sur le plan technique, Veo 3.1 Lite repose sur une architecture Diffusion Transformer (DiT), qui supplante les approches U-Net traditionnelles en traitant les frames vidéo non pas comme des images 2D statiques, mais comme des séquences de tokens dans un espace latent compressé. L'auto-attention appliquée à ces patches spatio-temporels améliore la cohérence temporelle — objets, lumières et textures restent stables tout au long du clip, un problème récurrent des modèles antérieurs. En opérant dans l'espace latent plutôt que dans l'espace pixel, le modèle contient l'empreinte mémoire et évite l'explosion du temps de calcul lors du passage en haute définition. Ce lancement s'inscrit dans une course à la démocratisation de la vidéo IA où Google, face à Sora d'OpenAI et Runway, cherche à consolider sa position en ciblant explicitement les développeurs plutôt que les créatifs, en faisant de la scalabilité économique son principal argument différenciateur.

UELes développeurs européens peuvent intégrer la génération vidéo IA à tarif réduit via l'API Gemini, sans impact réglementaire spécifique à l'UE.

CréationOpinion
1 source
Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0
4Pandaily 

Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0

Le 27 avril 2026, Alibaba a annoncé le lancement en bêta de HappyHorse 1.0, son nouveau modèle de génération vidéo par intelligence artificielle. Actuellement accessible aux créateurs professionnels et aux entreprises via inscription, le modèle est également disponible au grand public dans l'application Qwen. HappyHorse 1.0 prend en charge la génération vidéo à partir de texte, d'images ou d'audio, avec des séquences pouvant atteindre 15 secondes, un upscaling en 1080p, plusieurs formats d'image et une narration multi-plans. Le tarif de référence est fixé à 0,9 yuan par seconde pour une vidéo en 720p. Le modèle supporte également plusieurs langues, dont le cantonais, l'anglais, le français et le coréen. Un déploiement commercial est prévu pour le mois de mai, après une phase d'élargissement des tests d'ici fin avril. L'arrivée de HappyHorse 1.0 sur le marché illustre la montée en puissance des géants technologiques asiatiques dans la course à la vidéo générative, un segment en pleine explosion. Pour les créateurs de contenu et les entreprises, un outil capable de produire des vidéos courtes de qualité professionnelle à moins d'un yuan la seconde représente une baisse significative des coûts de production. La prise en charge multilingue native, notamment du français, élargit considérablement le périmètre commercial potentiel au-delà de la Chine. HappyHorse 1.0 a été développé par l'unité ATH d'Alibaba en collaboration avec plusieurs équipes internes, une information confirmée par le groupe le 10 avril. Avant son annonce officielle, le modèle avait déjà figuré sous un nom anonyme dans le classement AI Video Arena d'Artificial Analysis, ce qui suggère qu'Alibaba cherchait à valider ses performances en conditions réelles avant tout lancement public. Cette stratégie s'inscrit dans un contexte de concurrence intense entre acteurs comme Sora (OpenAI), Kling (Kuaishou) ou Vidu (Tencent), tous engagés dans une course à la qualité et à l'accessibilité tarifaire pour s'imposer comme référence de la vidéo générée par IA.

UELa prise en charge native du français ouvre HappyHorse 1.0 aux créateurs et entreprises européens comme outil de production vidéo à faible coût, sans présence ni partenariat européen annoncé à ce stade.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour