Aller au contenu principal
Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX
CréationMarkTechPost12sem· 2 min de lecture

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Source originale ↗·

Netflix a publié VOID (Video Object Inpainting and Detection), un modèle d'intelligence artificielle capable de supprimer des objets d'une vidéo et de reconstituer le fond de manière réaliste. Le pipeline repose sur CogVideoX-Fun-V1.5-5b-InP, un modèle d'inpainting vidéo développé par Alibaba PAI et distribué via Hugging Face. Le code source est accessible publiquement sur GitHub à l'adresse netflix/void-model, et le checkpoint officiel void_pass1.safetensors est téléchargeable depuis le dépôt netflix/void-model sur Hugging Face. Pour faire tourner le système, il faut au minimum 40 Go de VRAM, un GPU A100 étant recommandé par les ingénieurs de Netflix eux-mêmes. Le workflow comprend plusieurs étapes : cloner le dépôt, télécharger les modèles de base, préparer des séquences vidéo d'entrée avec leurs masques, puis lancer l'inférence pour obtenir une vidéo où l'objet ciblé a été effacé et remplacé par un fond cohérent. Une intégration optionnelle avec l'API d'OpenAI permet de générer automatiquement un prompt décrivant le fond souhaité, ce qui améliore la qualité du résultat final.

Ce type d'outil représente une avancée significative pour la production audiovisuelle. Supprimer un objet indésirable d'une scène vidéo, un câble visible, un accessoire oublié en arrière-plan ou un logo non autorisé, est une opération courante en post-production qui nécessite aujourd'hui des heures de travail manuel dans des logiciels spécialisés comme Adobe After Effects ou DaVinci Resolve. Avec VOID, Netflix propose une approche automatisée basée sur la génération vidéo, où le modèle ne se contente pas de masquer une zone mais reconstitue activement ce qui se trouverait derrière l'objet supprimé, en tenant compte du mouvement de la caméra et de la cohérence temporelle entre les frames. Pour les studios de production et les équipes VFX, cela pourrait réduire drastiquement les coûts et délais associés aux corrections de plans en post-production.

Netflix n'est pas le premier acteur à s'aventurer sur ce terrain. Des outils comme RunwayML Gen-3 ou Adobe Firefly Video proposent déjà des fonctionnalités similaires en mode SaaS, mais rares sont les modèles publiés en open source avec un pipeline complet et reproductible. En rendant VOID accessible, Netflix s'inscrit dans une tendance récente de grandes entreprises tech qui publient des modèles de recherche appliquée, à l'image de Meta avec SAM 2 pour la segmentation vidéo ou de Google avec ses travaux sur l'édition de scènes. L'architecture choisie, basée sur CogVideoX et les transformers de diffusion vidéo, reflète l'état de l'art actuel dans le domaine. La prochaine étape probable sera l'intégration de passes multiples et le traitement de vidéos longue durée, l'infrastructure actuelle étant limitée à des clips courts en raison des contraintes mémoire des GPU disponibles.

Impact France/UE

Les studios de production et équipes VFX français et européens pourraient réduire leurs coûts de post-production grâce à ce pipeline open source de suppression d'objets vidéo, accessible sur GitHub et Hugging Face.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
1MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
2Le Big Data 

Netflix VOID AI : l’open source pour réécrire vos vidéos

Netflix a publié en 2026 un outil open source baptisé VOID AI, pour Video Object and Interaction Deletion, capable de supprimer des éléments d'une vidéo tout en recalculant automatiquement les interactions physiques qui en découlent. Là où les logiciels de montage traditionnels se contentaient de "boucher" les zones supprimées avec des pixels voisins, VOID adopte une approche radicalement différente : si une main tenant un verre est effacée, le verre tombe. Si une voiture est retirée d'une scène de collision, la trajectoire des autres véhicules est recalculée. L'outil s'appuie sur des modèles de diffusion vidéo, notamment CogVideoX, et sur un système de masquage précis pour isoler l'objet cible sans contaminer le reste de l'image. Lumières, ombres et perspectives se mettent à jour de façon cohérente, sans intervention manuelle. Ce niveau de précision représente un saut qualitatif majeur pour les professionnels de la post-production. Jusqu'ici, effacer un élément en mouvement dans une séquence complexe pouvait mobiliser des heures de travail manuel, avec des résultats souvent imparfaits sur les zones à fort déplacement. VOID automatise ce processus en intégrant ce que Netflix appelle la "simulation contrefactuelle" : l'IA ne se demande pas seulement à quoi ressemble la scène sans l'objet, mais à quoi elle aurait ressemblé si cet objet n'avait jamais existé. Pour les studios, les créateurs indépendants ou les équipes de post-production, cela signifie des délais réduits et une liberté créative élargie, à condition de disposer d'une machine suffisamment puissante pour faire tourner l'outil. Le raisonnement causal au cœur de VOID ne relève pas de la magie algorithmique mais d'un entraînement rigoureux sur des données physiques synthétiques, générées notamment via Blender et inspirées de bases de données visuelles complexes. Netflix positionne cet outil dans la continuité de ses investissements en recherche appliquée, un domaine où le groupe rivalise désormais avec les grands laboratoires académiques et les éditeurs de logiciels professionnels comme Adobe ou DaVinci Resolve. En publiant VOID en open source, la plateforme fait le choix de l'écosystème plutôt que de la rétention technologique, une stratégie qui lui permet d'accélérer l'adoption, d'attirer des contributions externes et de s'imposer comme référence dans un segment en pleine expansion. Les suites possibles incluent une intégration dans des pipelines de production existants et, à terme, des applications grand public pour l'édition vidéo assistée par IA.

UELes studios de post-production français et européens peuvent adopter directement cet outil open source pour réduire les délais et coûts de montage vidéo complexe.

CréationOutil
1 source
Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son
3Le Big Data 

Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son

xAI, la société d'intelligence artificielle fondée par Elon Musk, a annoncé le 17 juin 2026 la disponibilité générale de Grok Imagine Video 1.5, son modèle de génération de vidéo par image. Disponible sur le web via grok.com/imagine, sur les applications mobiles iOS et Android, et via l'API sous le nom grok-imagine-video-1.5, le modèle sort officiellement de sa phase de prévisualisation lancée début juin. La nouveauté la plus marquante de cette version finale est l'intégration du son natif : effets sonores, ambiances sonores et dialogues sont désormais générés simultanément à la vidéo, sans étape supplémentaire. Pour les utilisateurs grand public, xAI déploie en parallèle une version Video 1.5 Fast qui ramène le temps de génération d'une vidéo six secondes en 720p à environ 25 secondes, contre plus de 40 secondes avec le modèle précédent, soit un gain de performance de près de 40%. La synchronisation audio-vidéo native représente un changement concret pour les créateurs de contenu, qui devaient auparavant assembler son et image dans des outils tiers. La génération simultanée améliore la cohérence entre l'action et le son, et xAI indique que les voix gagnent en naturalité. Sur le plan visuel, le modèle corrige plusieurs faiblesses récurrentes des générateurs vidéo : meilleure cohérence des personnages et objets entre les images, réduction des déformations visuelles, et simulation plus réaliste de la physique, notamment le poids et l'élan. Le flux de travail créatif est également repensé avec l'ajout de projets organisables depuis une barre latérale, la possibilité de lancer plusieurs générations en parallèle via des agents simultanés, et un moteur de recherche intégré à la bibliothèque personnelle de l'utilisateur. xAI s'inscrit dans une course à la génération vidéo IA qui oppose désormais des acteurs comme Runway, Sora d'OpenAI, Veo de Google et Kling de Kuaishou. En intégrant le son directement dans le pipeline de génération, la société cherche à se différencier sur un marché où la qualité de production cinématographique devient un argument central. Pour illustrer le potentiel du modèle, xAI met en avant le projet "Odyssey" du créateur David Thompson, qui a réalisé une bande-annonce à l'esthétique cinématographique entièrement avec Grok Imagine 1.5. La disponibilité via API ouvre également la voie à des intégrations dans des outils professionnels de production. La prochaine étape pour xAI sera probablement d'étendre les durées de vidéo et la résolution maximale, deux limites encore non précisées officiellement, pour rivaliser avec les offres premium de ses concurrents.

CréationActu
1 source
Netflix lance son propre studio d’animation… par IA
4Le Big Data 

Netflix lance son propre studio d’animation… par IA

Netflix vient de confirmer la création d'INKubator, un studio d'animation interne conçu pour produire du contenu en s'appuyant nativement sur les outils d'IA générative. L'annonce, relayée par The Verge et Engadget le 15 mai 2026, s'accompagne de plusieurs offres d'emploi ciblant des ingénieurs logiciels, des producteurs, des artistes CGI et des responsables techniques spécialisés en IA. Dans un premier temps, le studio se concentrera sur des courts métrages et des épisodes spéciaux d'animation. Netflix précise que ses films produits par Netflix Animation Studios continueront d'utiliser les techniques d'animation traditionnelles, INKubator opère donc en parallèle, non en remplacement. Le nom du studio, avec son K volontairement stylisé, marque déjà une identité distincte au sein du groupe. L'enjeu central est de repositionner l'IA non plus comme un outil d'assistance ponctuelle, mais comme un composant structurel du pipeline créatif. Pour Netflix, cela signifie potentiellement réduire les délais et les coûts de production sur des formats courts, là où le risque financier reste limité comparé à un long métrage animé à plusieurs centaines de millions de dollars. L'une des offres d'emploi évoque une transition future vers des formats plus longs, séries voire films complets, si les premières productions font leurs preuves. Pour les milliers d'animateurs et artistes du secteur, ce signal est lourd de sens : il indique que Netflix ne teste pas une technologie anecdotique, mais construit une infrastructure industrielle pensée pour scaler. Cette initiative s'inscrit dans une stratégie IA plus large que Netflix déploie depuis plusieurs années. La plateforme utilise déjà l'IA dans ses campagnes publicitaires et affine continuellement ses systèmes de recommandation et de recherche. Elle a également acquis InterPositive, une startup spécialisée dans l'IA cofondée par Ben Affleck. En parallèle, Netflix accélère sur les contenus verticaux et les formats ultra-courts adaptés au mobile, un terrain d'expérimentation idéal pour des productions assistées par IA. L'industrie du divertissement dans son ensemble observe cette séquence avec attention : si INKubator valide un modèle économique viable, d'autres studios pourraient se sentir contraints d'emboîter le pas, relançant au passage les tensions déjà vives avec les syndicats d'auteurs et d'animateurs autour de l'usage de l'IA dans la création de contenu.

UEL'industrie européenne de l'animation, particulièrement forte en France (Annecy, co-productions), pourrait être contrainte d'accélérer son intégration de l'IA face à la pression concurrentielle de studios industrialisés comme INKubator, ravivant les tensions déjà vives avec les syndicats d'auteurs et d'animateurs.

💬 C'est le signal que l'industrie redoutait. Là où les autres intègrent l'IA discrètement dans leurs workflows, Netflix lui donne un studio à part entière, un nom, des équipes dédiées, et une feuille de route vers les longs métrages. Annecy c'est dans trois semaines, ça va faire des conversations inconfortables.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic