Aller au contenu principal
CréationMarkTechPost2h

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

1 source couvre ce sujet·Source originale ↗·

Netflix a publié VOID (Video Object Inpainting and Detection), un modèle d'intelligence artificielle capable de supprimer des objets d'une vidéo et de reconstituer le fond de manière réaliste. Le pipeline repose sur CogVideoX-Fun-V1.5-5b-InP, un modèle d'inpainting vidéo développé par Alibaba PAI et distribué via Hugging Face. Le code source est accessible publiquement sur GitHub à l'adresse netflix/void-model, et le checkpoint officiel void_pass1.safetensors est téléchargeable depuis le dépôt netflix/void-model sur Hugging Face. Pour faire tourner le système, il faut au minimum 40 Go de VRAM, un GPU A100 étant recommandé par les ingénieurs de Netflix eux-mêmes. Le workflow comprend plusieurs étapes : cloner le dépôt, télécharger les modèles de base, préparer des séquences vidéo d'entrée avec leurs masques, puis lancer l'inférence pour obtenir une vidéo où l'objet ciblé a été effacé et remplacé par un fond cohérent. Une intégration optionnelle avec l'API d'OpenAI permet de générer automatiquement un prompt décrivant le fond souhaité, ce qui améliore la qualité du résultat final.

Ce type d'outil représente une avancée significative pour la production audiovisuelle. Supprimer un objet indésirable d'une scène vidéo, un câble visible, un accessoire oublié en arrière-plan ou un logo non autorisé, est une opération courante en post-production qui nécessite aujourd'hui des heures de travail manuel dans des logiciels spécialisés comme Adobe After Effects ou DaVinci Resolve. Avec VOID, Netflix propose une approche automatisée basée sur la génération vidéo, où le modèle ne se contente pas de masquer une zone mais reconstitue activement ce qui se trouverait derrière l'objet supprimé, en tenant compte du mouvement de la caméra et de la cohérence temporelle entre les frames. Pour les studios de production et les équipes VFX, cela pourrait réduire drastiquement les coûts et délais associés aux corrections de plans en post-production.

Netflix n'est pas le premier acteur à s'aventurer sur ce terrain. Des outils comme RunwayML Gen-3 ou Adobe Firefly Video proposent déjà des fonctionnalités similaires en mode SaaS, mais rares sont les modèles publiés en open source avec un pipeline complet et reproductible. En rendant VOID accessible, Netflix s'inscrit dans une tendance récente de grandes entreprises tech qui publient des modèles de recherche appliquée, à l'image de Meta avec SAM 2 pour la segmentation vidéo ou de Google avec ses travaux sur l'édition de scènes. L'architecture choisie, basée sur CogVideoX et les transformers de diffusion vidéo, reflète l'état de l'art actuel dans le domaine. La prochaine étape probable sera l'intégration de passes multiples et le traitement de vidéos longue durée, l'infrastructure actuelle étant limitée à des clips courts en raison des contraintes mémoire des GPU disponibles.

Impact France/UE

Les studios de production et équipes VFX français et européens pourraient réduire leurs coûts de post-production grâce à ce pipeline open source de suppression d'objets vidéo, accessible sur GitHub et Hugging Face.

À lire aussi

Test de Soundraw : l’intelligence artificielle qui compose votre musique sur mesure - avril 2026
1Le Big Data 

Test de Soundraw : l’intelligence artificielle qui compose votre musique sur mesure - avril 2026

Soundraw est un générateur de musique par intelligence artificielle lancé à destination des créateurs de contenu et des artistes, qui permet de composer des morceaux originaux et libres de droits en quelques minutes. L'outil se distingue d'une simple banque de sons : son algorithme génère des compositions entièrement nouvelles à partir de paramètres définis par l'utilisateur, comme le genre musical, l'ambiance, la durée et l'intensité de chaque segment. L'éditeur de structure permet d'ajuster la longueur d'un morceau à la milliseconde près, de définir l'énergie de chaque section (intro, refrain, couplet) et de synchroniser un pic d'intensité à un moment précis du montage vidéo. L'IA recalcule les transitions en temps réel pour que les changements de rythme paraissent naturels. Le mode "Artist", pensé pour les rappeurs et chanteurs, ouvre également la génération d'instrumentales personnalisées. Un abonnement est nécessaire pour exporter les fichiers audio. Pour les monteurs vidéo, les podcasteurs et les créateurs YouTube ou TikTok, Soundraw résout un problème concret et récurrent : trouver une musique adaptée à un projet sans se heurter aux droits d'auteur ni payer des licences élevées à des bibliothèques de stock. La personnalisation granulaire de l'outil, qui permet de muter ou d'activer des instruments individuellement et d'ajuster tempo et tonalité, transforme la musique de fond en un véritable élément narratif. Le gain de temps en post-production est significatif. Sur le plan juridique, la sécurité des licences est garantie par la plateforme, ce qui est décisif pour tout contenu à vocation commerciale. Les styles électroniques sont jugés moins convaincants que les autres genres, et l'accès complet reste conditionné à un abonnement payant. Soundraw s'inscrit dans une vague plus large d'outils de création musicale assistée par IA, aux côtés de concurrents comme Suno, Udio ou Mubert, qui ont tous émergé entre 2023 et 2025 portés par les avancées des modèles génératifs audio. La question des droits sur les œuvres générées par IA reste un sujet de débat juridique actif dans plusieurs pays, mais Soundraw a choisi de positionner son modèle sur la clarté contractuelle comme argument différenciateur. Le marché de la musique de stock, évalué à plusieurs milliards de dollars et dominé par des acteurs comme Epidemic Sound ou Artlist, est directement challengé par ces nouveaux entrants. La prochaine étape pour ces plateformes sera probablement d'intégrer des capacités vocales et de renforcer la cohérence stylistique sur les genres les moins bien maîtrisés, pour s'adresser à un spectre encore plus large de professionnels de la création.

UELes créateurs de contenu européens peuvent utiliser Soundraw pour contourner les coûts de licence musicale, dans un contexte où la directive européenne sur le droit d'auteur soulève des questions non résolues sur le statut juridique des œuvres générées par IA.

CréationOutil
1 source
Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
2MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
Intégration HeyGen X Canva, voici tout ce qu’il faut savoir - avril 2026
3Le Big Data 

Intégration HeyGen X Canva, voici tout ce qu’il faut savoir - avril 2026

HeyGen et Canva ont officialisé une intégration directe entre leurs deux plateformes, permettant aux créateurs de contenu de générer des vidéos avec avatars IA sans quitter leur environnement de travail habituel. Concrètement, cette alliance offre deux modes d'utilisation : importer des designs Canva (en PNG ou PDF) dans HeyGen pour y superposer un présentateur virtuel, ou installer le module HeyGen directement dans l'interface Canva via le menu des applications. Dans les deux cas, l'utilisateur peut sélectionner un avatar photoréaliste, saisir un script textuel, choisir une voix et générer une séquence vidéo finalisée — le tout sans logiciel de montage tiers, sans tournage, et sans studio. Pour les équipes marketing, les formateurs et les créateurs de contenu, l'impact est immédiat : la production d'une vidéo avec présentateur humain, qui nécessitait autrefois du matériel, un lieu de tournage et des heures de post-production, se réduit à quelques minutes de travail sur navigateur. L'intégration est particulièrement utile pour industrialiser la création de contenus répétitifs — présentations produits, tutoriels, communications internes multilingues — où la qualité visuelle doit rester constante sans mobiliser une équipe de production à chaque itération. Le combo élimine également la barrière technique entre la mise en page graphique et l'animation, deux compétences rarement réunies chez un même professionnel. HeyGen s'est imposé ces deux dernières années comme l'un des leaders de la vidéo synthétique, notamment grâce à ses avatars multilingues et sa technologie de lip-sync jugée parmi les plus convaincantes du marché. Canva, de son côté, revendique plus de 200 millions d'utilisateurs actifs et a multiplié les intégrations IA depuis 2023 — Magic Media, générateur d'images, réécriture automatique — pour consolider sa position de suite créative tout-en-un face à Adobe. Ce partenariat s'inscrit dans une tendance de fond : les éditeurs SaaS construisent des écosystèmes fermés où chaque brique renforce la rétention utilisateur. Pour HeyGen, être natif dans Canva, c'est accéder directement à une base de dizaines de millions de PME et d'indépendants. Pour Canva, c'est ajouter la vidéo IA sans développer la technologie en interne. Les prochaines étapes pourraient inclure des avatars personnalisés à partir de la photo de l'utilisateur, une génération multilingue automatique, ou une synchronisation directe avec des outils de présentation comme Google Slides — des fonctionnalités déjà présentes dans HeyGen en standalone et qui devraient progressivement rejoindre l'intégration.

CréationOutil
1 source
Google veut réussir avec Veo 3.1 lite là où OpenAI a échoué avec Sora
4Frandroid 

Google veut réussir avec Veo 3.1 lite là où OpenAI a échoué avec Sora

Google a dévoilé Veo 3.1 lite, une version allégée de son modèle de génération vidéo par intelligence artificielle, destinée en priorité aux professionnels et créateurs de contenu. Contrairement aux versions précédentes positionnées sur les capacités brutes, ce nouveau modèle mise sur un équilibre entre performance et accessibilité tarifaire — un pivot stratégique explicitement assumé par la firme de Mountain View. L'enjeu est directement lié à l'échec relatif de Sora, le modèle vidéo d'OpenAI lancé avec fracas fin 2024 : malgré des démonstrations impressionnantes, Sora n'a jamais réussi à s'imposer auprès du grand public ni des professionnels, freiné par des coûts élevés, des limitations d'accès et des résultats inégaux en production réelle. Google tente d'éviter ce piège en rendant Veo 3.1 lite plus économique à l'usage, ce qui pourrait lui ouvrir les workflows de studios, agences et indépendants que Sora n'a pas su conquérir. La compétition dans la génération vidéo IA s'est considérablement intensifiée ces derniers mois, avec des acteurs comme Runway, Kling ou Pika qui occupent déjà le terrain professionnel. Google, fort de son infrastructure et de son intégration dans l'écosystème Workspace et YouTube, dispose d'un levier de distribution que ses concurrents n'ont pas. Veo 3.1 lite s'inscrit dans une stratégie plus large visant à ancrer Gemini et les outils génératifs Google dans les usages quotidiens des créateurs, avant que le marché ne se cristallise autour d'un ou deux acteurs dominants.

UELes créateurs et studios européens pourraient adopter Veo 3.1 lite comme alternative abordable aux outils vidéo IA existants, notamment via l'intégration dans Google Workspace déjà répandu en entreprise.

CréationOpinion
1 source