Aller au contenu principal
NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU
CréationMarkTechPost6sem· 2 min de lecture

NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU

Source originale ↗·

NVIDIA a publié SANA-WM, un modèle de monde open-source de 2,6 milliards de paramètres capable de générer une vidéo d'une minute en résolution 720p sur un seul GPU. Construit sur la base de code SANA-Video et disponible sur le dépôt GitHub NVlabs/Sana, ce modèle est un Diffusion Transformer (DiT) entraîné nativement pour la synthèse de séquences longues avec un contrôle de caméra 6-DoF à l'échelle métrique. Il propose trois modes d'inférence sur GPU unique : un générateur bidirectionnel pour la synthèse hors-ligne haute qualité, un générateur autorégressif par segments pour le déploiement séquentiel, et une variante distillée accélérée. Cette dernière génère un clip de 60 secondes en 720p en 34 secondes sur une RTX 5090 avec quantification NVFP4.

Les modèles de monde représentent une brique technologique clé pour l'IA incarnée, la simulation et la robotique : ils permettent de prédire des séquences visuelles réalistes à partir d'une image initiale et d'un ensemble d'actions. Jusqu'ici, les systèmes open-source les plus compétitifs exigeaient soit plusieurs GPU pour l'inférence, soit une réduction de la résolution pour rester dans les budgets de calcul. SANA-WM s'attaque directement à ces deux contraintes, rendant accessible à un seul GPU une génération vidéo longue et haute définition. Pour les chercheurs en robotique et en simulation, cela réduit considérablement le coût d'expérimentation et ouvre la voie à des environnements synthétiques à grande échelle sans infrastructure dédiée.

Sur le plan architectural, NVIDIA a résolu un problème fondamental : l'attention softmax standard a une complexité mémoire quadratique avec la longueur de séquence, ce qui devient prohibitif pour 961 frames latentes sur une vidéo de 60 secondes. SANA-WM remplace la majorité des blocs d'attention par des blocs Gated DeltaNet (GDN) frame-wise, une variante récurrente à taille d'état constante qui intègre un mécanisme de décroissance pour éviter l'accumulation de toutes les frames passées avec un poids égal, un problème qui dégradait les prédécesseurs sur les séquences longues. L'architecture finale entrelace 15 blocs GDN avec 5 blocs d'attention softmax sur 20 couches transformer au total. Le contrôle de caméra repose sur deux branches complémentaires : une branche grossière basée sur un encodage de position de caméra unifié (UCPE) pour capturer la trajectoire globale, et une branche fine utilisant des Plücker raymaps pour restaurer les mouvements de caméra intra-stride comprimés par le VAE vidéo. Ce modèle s'inscrit dans une dynamique d'accélération rapide des modèles de monde ouverts, où Google, Meta et des startups comme World Labs se positionnent également, faisant de la génération vidéo contrôlable un enjeu central de la prochaine génération d'IA.

Impact France/UE

Les chercheurs européens en robotique et simulation peuvent désormais expérimenter avec des modèles de monde vidéo haute définition sur un seul GPU grand public, réduisant significativement les coûts d'infrastructure pour les laboratoires sans moyens de calcul dédiés.

💬 L'analyse de Mathieu

Un modèle de monde open-source qui tourne sur un seul GPU, c'est le genre de truc qui change vraiment les règles pour les labos sans cluster dédié. Ce qui me plaît, c'est le travail architectural sous-jacent : remplacer la majorité des blocs d'attention softmax par des GDN pour tenir sur des séquences longues sans exploser la mémoire, c'est pas trivial du tout. Reste à voir ce que ça donne sur une 4080 ordinaire, parce que la RTX 5090 c'est encore un autre monde.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Miso Labs publie MisoTTS : un modèle de synthèse vocale expressif de 8 milliards de paramètres en open weights
1MarkTechPost 

Miso Labs publie MisoTTS : un modèle de synthèse vocale expressif de 8 milliards de paramètres en open weights

Miso Labs a publié le 3 juin 2026 MisoTTS, un modèle de synthèse vocale open-weights de 8 milliards de paramètres capable de générer une parole expressive à partir de texte et de contexte audio. Construit sur une architecture de type Llama 3.2, le modèle s'inspire du système CSM de Sesame et repose sur une technique de quantification vectorielle résiduelle (RVQ) pour représenter les sons. Contrairement aux transformeurs classiques qui travaillent avec un vocabulaire discret fixe, MisoTTS émet pour chaque token audio un vecteur de 32 indices issus de codebooks de 2048 entrées chacun, ce qui lui permet d'atteindre théoriquement environ 10^105 tokens adressables sans augmenter le nombre de paramètres. L'architecture se divise en deux composants : un backbone de 7,7 milliards de paramètres responsable de la prédiction temporelle, et un décodeur de 300 millions de paramètres qui raffine les indices de codebook restants. Miso Labs revendique une latence de 110 millisecondes, contre 300 ms pour Sesame et 700 ms pour ElevenLabs. Le modèle est publié sous une licence MIT modifiée. Ce lancement est notable pour deux raisons techniques distinctes. La première est la résolution du problème de vocabulaire : la parole humaine varie en hauteur, rythme, accentuation, émotion et accent, ce qui la rend difficile à capturer avec un vocabulaire de tokens classique sans gonfler massivement la taille du modèle. La RVQ contourne cette limite en empilant des raffinements successifs plutôt qu'en élargissant un seul vocabulaire plat. La seconde avancée concerne le conditionnement : la plupart des systèmes TTS existants ne prennent en entrée que du texte. MisoTTS conditionne aussi le modèle sur l'audio de l'interlocuteur, lui permettant de répondre au ton de la conversation plutôt que de produire une voix uniforme. Miso Labs soutient que c'est précisément cette absence de prise en compte du contexte émotionnel qui cause l'effet de vallée de l'étrange dans les TTS actuels. Le modèle s'inscrit dans une dynamique d'ouverture accélérée dans le secteur des modèles audio. Après Sesame, dont l'architecture CSM a directement inspiré MisoTTS, plusieurs laboratoires cherchent à rendre la synthèse vocale expressive accessible localement, en dehors des API propriétaires. Le déploiement local est d'ailleurs l'un des arguments commerciaux de Miso Labs, qui met en avant la confidentialité des données audio. Des limites demeurent : le modèle fonctionne uniquement en mode half-duplex, sans gestion du tour de parole, nécessite un GPU CUDA performant, et l'accès API annoncé n'est pas encore disponible. Les affirmations sur la latence et la qualité n'ont pas encore été vérifiées par des tiers indépendants, ce qui laisse ouvertes les questions sur les performances réelles en production.

UELes développeurs et entreprises européennes peuvent déployer localement ce modèle open-weights pour la synthèse vocale expressive, réduisant leur dépendance aux API propriétaires et améliorant la confidentialité des données audio sensibles.

CréationOpinion
1 source
Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
2MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
Le modèle vidéo IA d'Alibaba grimpe à la 2e place mondiale, pendant que Sora d'OpenAI et Seedance de ByteDance reculent
3VentureBeat AI 

Le modèle vidéo IA d'Alibaba grimpe à la 2e place mondiale, pendant que Sora d'OpenAI et Seedance de ByteDance reculent

Alibaba Cloud a lancé dimanche HappyHorse 1.1, une mise à jour majeure de son modèle de génération vidéo par intelligence artificielle, désormais disponible sur Alibaba Cloud Model Studio avec accès API complet pour les entreprises et les développeurs. Pour marquer le lancement, la plateforme propose une réduction de 40 % pendant deux semaines. Ce modèle repose sur un Transformer unifié de 15 milliards de paramètres capable de traiter simultanément du texte, des images, de la vidéo et de l'audio dans une seule séquence, sans recourir à des outils tiers pour la synchronisation audio ou le post-traitement. Sur le classement indépendant Artificial Analysis Video Arena, HappyHorse 1.0 occupe actuellement la deuxième place avec un score Elo de 1 444 dans les catégories texte-vers-vidéo et image-vers-vidéo, devançant Google Veo-3.1 de 69 points et xAI Grok-Imagine-Video de 23 points. Ce lancement intervient dans un marché brusquement reconfiguré. OpenAI a mis fin à Sora, jugé financièrement non viable, tandis que ByteDance a indéfiniment suspendu le déploiement international de Seedance 2.0 après une vague de plaintes pour violation de droits d'auteur de la part des studios hollywoodiens. Pour les équipes achats des entreprises qui évaluaient ou intégraient ces outils dans leurs workflows marketing, publicité ou production de contenus, le choix s'est considérablement rétréci en quelques mois. HappyHorse 1.1 arrive donc à point nommé : conçu comme un produit API-first pour s'intégrer dans des stacks logiciels d'entreprise, il mise sur une architecture unifiée qui réduit le nombre de dépendances fournisseurs et accélère la mise en production. Pour les acheteurs sensibles au coût total de possession, c'est un argument concret. HappyHorse a d'abord émergé début avril comme soumission anonyme sur l'Artificial Analysis Video Arena, où il s'est immédiatement classé premier avant qu'Alibaba ne soit confirmé comme créateur. Le modèle est développé par l'ATH (Alibaba Token Hub) AI Innovation Unit, une équipe issue du Future Life Lab rattachée au groupe Taobao et Tmall, avant une restructuration organisationnelle stratégique. Derrière ce lancement se profile un enjeu bien plus large : Alibaba a annoncé un programme d'investissement en infrastructure de 52,7 milliards de dollars à l'échelle mondiale, et la vidéo générative représente un marché que les analystes anticipent à plusieurs dizaines de milliards de dollars d'ici la fin de la décennie. La vraie question est de savoir si Alibaba parviendra à convertir cette avance technique en adoption réelle sur les marchés occidentaux, dans un contexte de tensions croissantes entre Washington et Pékin sur les technologies d'intelligence artificielle.

UELes entreprises européennes qui intégraient Sora ou Seedance dans leurs workflows de production vidéo ou marketing doivent reconsidérer leurs options, le marché s'étant brutalement rétréci avec la fermeture de Sora et la suspension internationale de Seedance 2.0.

💬 Sora est mort, Seedance suspendu, et HappyHorse 1.1 arrive deuxième mondial. Le vrai sujet n'est pas la qualité du modèle : c'est que le marché de la vidéo générative B2B s'est retrouvé à trois candidats sérieux en moins de six mois. Intégrer Alibaba dans sa stack de production, ça va faire tiquer les DSI européens, surtout en ce moment.

CréationOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
4Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic