Aller au contenu principal
CréationLe Big Data6sem

Netflix VOID AI : l’open source pour réécrire vos vidéos

Résumé IASource uniqueImpact UE
Source originale ↗·

Netflix a publié en 2026 un outil open source baptisé VOID AI, pour Video Object and Interaction Deletion, capable de supprimer des éléments d'une vidéo tout en recalculant automatiquement les interactions physiques qui en découlent. Là où les logiciels de montage traditionnels se contentaient de "boucher" les zones supprimées avec des pixels voisins, VOID adopte une approche radicalement différente : si une main tenant un verre est effacée, le verre tombe. Si une voiture est retirée d'une scène de collision, la trajectoire des autres véhicules est recalculée. L'outil s'appuie sur des modèles de diffusion vidéo, notamment CogVideoX, et sur un système de masquage précis pour isoler l'objet cible sans contaminer le reste de l'image. Lumières, ombres et perspectives se mettent à jour de façon cohérente, sans intervention manuelle.

Ce niveau de précision représente un saut qualitatif majeur pour les professionnels de la post-production. Jusqu'ici, effacer un élément en mouvement dans une séquence complexe pouvait mobiliser des heures de travail manuel, avec des résultats souvent imparfaits sur les zones à fort déplacement. VOID automatise ce processus en intégrant ce que Netflix appelle la "simulation contrefactuelle" : l'IA ne se demande pas seulement à quoi ressemble la scène sans l'objet, mais à quoi elle aurait ressemblé si cet objet n'avait jamais existé. Pour les studios, les créateurs indépendants ou les équipes de post-production, cela signifie des délais réduits et une liberté créative élargie, à condition de disposer d'une machine suffisamment puissante pour faire tourner l'outil.

Le raisonnement causal au cœur de VOID ne relève pas de la magie algorithmique mais d'un entraînement rigoureux sur des données physiques synthétiques, générées notamment via Blender et inspirées de bases de données visuelles complexes. Netflix positionne cet outil dans la continuité de ses investissements en recherche appliquée, un domaine où le groupe rivalise désormais avec les grands laboratoires académiques et les éditeurs de logiciels professionnels comme Adobe ou DaVinci Resolve. En publiant VOID en open source, la plateforme fait le choix de l'écosystème plutôt que de la rétention technologique, une stratégie qui lui permet d'accélérer l'adoption, d'attirer des contributions externes et de s'imposer comme référence dans un segment en pleine expansion. Les suites possibles incluent une intégration dans des pipelines de production existants et, à terme, des applications grand public pour l'édition vidéo assistée par IA.

Impact France/UE

Les studios de post-production français et européens peuvent adopter directement cet outil open source pour réduire les délais et coûts de montage vidéo complexe.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
1MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX
2MarkTechPost 

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Netflix a publié VOID (Video Object Inpainting and Detection), un modèle d'intelligence artificielle capable de supprimer des objets d'une vidéo et de reconstituer le fond de manière réaliste. Le pipeline repose sur CogVideoX-Fun-V1.5-5b-InP, un modèle d'inpainting vidéo développé par Alibaba PAI et distribué via Hugging Face. Le code source est accessible publiquement sur GitHub à l'adresse netflix/void-model, et le checkpoint officiel void_pass1.safetensors est téléchargeable depuis le dépôt netflix/void-model sur Hugging Face. Pour faire tourner le système, il faut au minimum 40 Go de VRAM, un GPU A100 étant recommandé par les ingénieurs de Netflix eux-mêmes. Le workflow comprend plusieurs étapes : cloner le dépôt, télécharger les modèles de base, préparer des séquences vidéo d'entrée avec leurs masques, puis lancer l'inférence pour obtenir une vidéo où l'objet ciblé a été effacé et remplacé par un fond cohérent. Une intégration optionnelle avec l'API d'OpenAI permet de générer automatiquement un prompt décrivant le fond souhaité, ce qui améliore la qualité du résultat final. Ce type d'outil représente une avancée significative pour la production audiovisuelle. Supprimer un objet indésirable d'une scène vidéo, un câble visible, un accessoire oublié en arrière-plan ou un logo non autorisé, est une opération courante en post-production qui nécessite aujourd'hui des heures de travail manuel dans des logiciels spécialisés comme Adobe After Effects ou DaVinci Resolve. Avec VOID, Netflix propose une approche automatisée basée sur la génération vidéo, où le modèle ne se contente pas de masquer une zone mais reconstitue activement ce qui se trouverait derrière l'objet supprimé, en tenant compte du mouvement de la caméra et de la cohérence temporelle entre les frames. Pour les studios de production et les équipes VFX, cela pourrait réduire drastiquement les coûts et délais associés aux corrections de plans en post-production. Netflix n'est pas le premier acteur à s'aventurer sur ce terrain. Des outils comme RunwayML Gen-3 ou Adobe Firefly Video proposent déjà des fonctionnalités similaires en mode SaaS, mais rares sont les modèles publiés en open source avec un pipeline complet et reproductible. En rendant VOID accessible, Netflix s'inscrit dans une tendance récente de grandes entreprises tech qui publient des modèles de recherche appliquée, à l'image de Meta avec SAM 2 pour la segmentation vidéo ou de Google avec ses travaux sur l'édition de scènes. L'architecture choisie, basée sur CogVideoX et les transformers de diffusion vidéo, reflète l'état de l'art actuel dans le domaine. La prochaine étape probable sera l'intégration de passes multiples et le traitement de vidéos longue durée, l'infrastructure actuelle étant limitée à des clips courts en raison des contraintes mémoire des GPU disponibles.

UELes studios de production et équipes VFX français et européens pourraient réduire leurs coûts de post-production grâce à ce pipeline open source de suppression d'objets vidéo, accessible sur GitHub et Hugging Face.

CréationOpinion
1 source
Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !
3Le Big Data 

Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !

Tencent a publié le 16 avril 2026 HY-World 2.0, un modèle d'intelligence artificielle open source capable de générer des environnements 3D interactifs complets à partir d'un simple texte, d'une image ou d'une vidéo. Le processus prend environ 712 secondes, soit moins de douze minutes, en exploitant des GPU NVIDIA H20. Le modèle repose sur une chaîne de quatre modules spécialisés : HY-Pano 2.0 convertit le point de départ en panorama sphérique à 360 degrés, WorldNav planifie jusqu'à 35 trajectoires de caméra pour explorer l'espace sans collision, WorldStereo 2.0 génère de nouvelles vues pour combler les angles morts, et WorldMirror 2.0 reconstruit la scène finale en 3D Gaussian Splatting. L'algorithme MaskGaussian réduit le volume des données de 73,7 % en éliminant les points superflus, sans dégrader la qualité visuelle, maintenant un PSNR de 25.017. Les scènes exportées sont directement compatibles avec Unity et Unreal Engine, et incluent la détection de collisions pour la robotique. Tencent publie les poids, le code et le rapport technique en accès libre. Cette publication change concrètement l'accès à la génération de mondes 3D, jusqu'ici réservée à des équipes disposant de ressources considérables. Un développeur de jeu indépendant, un studio de simulation ou une équipe de robotique peut désormais produire un environnement 3D explorable en moins d'un quart d'heure, sans pipeline propriétaire ni licence coûteuse. Le fait que les exports soient nativement compatibles avec les deux moteurs de jeu dominants du marché supprime une étape d'intégration habituellement chronophage. Pour la robotique incarnée, la possibilité de générer des environnements de simulation physiquement cohérents à la demande ouvre des perspectives importantes pour l'entraînement d'agents autonomes à moindre coût. HY-World 2.0 arrive dans un contexte de compétition intense autour des "world models", ces systèmes capables de simuler des environnements physiquement plausibles. Google DeepMind a présenté Genie 3, qui adopte une approche par génération vidéo, tandis que World Labs de Fei-Fei Li a lancé Marble, solution entièrement fermée. Tencent choisit délibérément l'open source pour s'imposer comme référence de la recherche et attirer la communauté des développeurs, une stratégie déjà utilisée avec la série Hunyuan sur la génération d'images et de vidéos. L'enjeu dépasse le jeu vidéo : les world models sont considérés comme une brique fondamentale pour entraîner des robots et des agents IA capables d'agir dans le monde réel. En rendant HY-World 2.0 librement accessible, Tencent accélère la diffusion de cette technologie et complique la position des acteurs qui misaient sur la fermeture de leurs systèmes comme avantage concurrentiel.

UELes studios indépendants et équipes de robotique français et européens peuvent désormais générer des environnements 3D professionnels gratuitement, réduisant leur dépendance aux solutions propriétaires coûteuses.

💬 12 minutes pour un monde 3D explorable, exportable direct dans Unity ou Unreal, open source. Ce qui est intéressant ici, c'est pas la performance technique (solide, mais la concurrence existe), c'est que Tencent lâche tout en public pile au moment où World Labs joue la carte du fermé, le même coup qu'avec Hunyuan. Un studio indé peut démarrer avec ça demain, sans débourser un centime.

CréationOpinion
1 source
Netflix lance son propre studio d’animation… par IA
4Le Big Data 

Netflix lance son propre studio d’animation… par IA

Netflix vient de confirmer la création d'INKubator, un studio d'animation interne conçu pour produire du contenu en s'appuyant nativement sur les outils d'IA générative. L'annonce, relayée par The Verge et Engadget le 15 mai 2026, s'accompagne de plusieurs offres d'emploi ciblant des ingénieurs logiciels, des producteurs, des artistes CGI et des responsables techniques spécialisés en IA. Dans un premier temps, le studio se concentrera sur des courts métrages et des épisodes spéciaux d'animation. Netflix précise que ses films produits par Netflix Animation Studios continueront d'utiliser les techniques d'animation traditionnelles, INKubator opère donc en parallèle, non en remplacement. Le nom du studio, avec son K volontairement stylisé, marque déjà une identité distincte au sein du groupe. L'enjeu central est de repositionner l'IA non plus comme un outil d'assistance ponctuelle, mais comme un composant structurel du pipeline créatif. Pour Netflix, cela signifie potentiellement réduire les délais et les coûts de production sur des formats courts, là où le risque financier reste limité comparé à un long métrage animé à plusieurs centaines de millions de dollars. L'une des offres d'emploi évoque une transition future vers des formats plus longs, séries voire films complets, si les premières productions font leurs preuves. Pour les milliers d'animateurs et artistes du secteur, ce signal est lourd de sens : il indique que Netflix ne teste pas une technologie anecdotique, mais construit une infrastructure industrielle pensée pour scaler. Cette initiative s'inscrit dans une stratégie IA plus large que Netflix déploie depuis plusieurs années. La plateforme utilise déjà l'IA dans ses campagnes publicitaires et affine continuellement ses systèmes de recommandation et de recherche. Elle a également acquis InterPositive, une startup spécialisée dans l'IA cofondée par Ben Affleck. En parallèle, Netflix accélère sur les contenus verticaux et les formats ultra-courts adaptés au mobile, un terrain d'expérimentation idéal pour des productions assistées par IA. L'industrie du divertissement dans son ensemble observe cette séquence avec attention : si INKubator valide un modèle économique viable, d'autres studios pourraient se sentir contraints d'emboîter le pas, relançant au passage les tensions déjà vives avec les syndicats d'auteurs et d'animateurs autour de l'usage de l'IA dans la création de contenu.

UEL'industrie européenne de l'animation, particulièrement forte en France (Annecy, co-productions), pourrait être contrainte d'accélérer son intégration de l'IA face à la pression concurrentielle de studios industrialisés comme INKubator, ravivant les tensions déjà vives avec les syndicats d'auteurs et d'animateurs.

💬 C'est le signal que l'industrie redoutait. Là où les autres intègrent l'IA discrètement dans leurs workflows, Netflix lui donne un studio à part entière, un nom, des équipes dédiées, et une feuille de route vers les longs métrages. Annecy c'est dans trois semaines, ça va faire des conversations inconfortables.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour