Aller au contenu principal
Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !
CréationLe Big Data4sem

Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Tencent a publié le 16 avril 2026 HY-World 2.0, un modèle d'intelligence artificielle open source capable de générer des environnements 3D interactifs complets à partir d'un simple texte, d'une image ou d'une vidéo. Le processus prend environ 712 secondes, soit moins de douze minutes, en exploitant des GPU NVIDIA H20. Le modèle repose sur une chaîne de quatre modules spécialisés : HY-Pano 2.0 convertit le point de départ en panorama sphérique à 360 degrés, WorldNav planifie jusqu'à 35 trajectoires de caméra pour explorer l'espace sans collision, WorldStereo 2.0 génère de nouvelles vues pour combler les angles morts, et WorldMirror 2.0 reconstruit la scène finale en 3D Gaussian Splatting. L'algorithme MaskGaussian réduit le volume des données de 73,7 % en éliminant les points superflus, sans dégrader la qualité visuelle, maintenant un PSNR de 25.017. Les scènes exportées sont directement compatibles avec Unity et Unreal Engine, et incluent la détection de collisions pour la robotique. Tencent publie les poids, le code et le rapport technique en accès libre.

Cette publication change concrètement l'accès à la génération de mondes 3D, jusqu'ici réservée à des équipes disposant de ressources considérables. Un développeur de jeu indépendant, un studio de simulation ou une équipe de robotique peut désormais produire un environnement 3D explorable en moins d'un quart d'heure, sans pipeline propriétaire ni licence coûteuse. Le fait que les exports soient nativement compatibles avec les deux moteurs de jeu dominants du marché supprime une étape d'intégration habituellement chronophage. Pour la robotique incarnée, la possibilité de générer des environnements de simulation physiquement cohérents à la demande ouvre des perspectives importantes pour l'entraînement d'agents autonomes à moindre coût.

HY-World 2.0 arrive dans un contexte de compétition intense autour des "world models", ces systèmes capables de simuler des environnements physiquement plausibles. Google DeepMind a présenté Genie 3, qui adopte une approche par génération vidéo, tandis que World Labs de Fei-Fei Li a lancé Marble, solution entièrement fermée. Tencent choisit délibérément l'open source pour s'imposer comme référence de la recherche et attirer la communauté des développeurs, une stratégie déjà utilisée avec la série Hunyuan sur la génération d'images et de vidéos. L'enjeu dépasse le jeu vidéo : les world models sont considérés comme une brique fondamentale pour entraîner des robots et des agents IA capables d'agir dans le monde réel. En rendant HY-World 2.0 librement accessible, Tencent accélère la diffusion de cette technologie et complique la position des acteurs qui misaient sur la fermeture de leurs systèmes comme avantage concurrentiel.

Impact France/UE

Les studios indépendants et équipes de robotique français et européens peuvent désormais générer des environnements 3D professionnels gratuitement, réduisant leur dépendance aux solutions propriétaires coûteuses.

💬 Le point de vue du dev

12 minutes pour un monde 3D explorable, exportable direct dans Unity ou Unreal, open source. Ce qui est intéressant ici, c'est pas la performance technique (solide, mais la concurrence existe), c'est que Tencent lâche tout en public pile au moment où World Labs joue la carte du fermé, le même coup qu'avec Hunyuan. Un studio indé peut démarrer avec ça demain, sans débourser un centime.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data 

Netflix VOID AI : l’open source pour réécrire vos vidéos

Netflix a publié en 2026 un outil open source baptisé VOID AI, pour Video Object and Interaction Deletion, capable de supprimer des éléments d'une vidéo tout en recalculant automatiquement les interactions physiques qui en découlent. Là où les logiciels de montage traditionnels se contentaient de "boucher" les zones supprimées avec des pixels voisins, VOID adopte une approche radicalement différente : si une main tenant un verre est effacée, le verre tombe. Si une voiture est retirée d'une scène de collision, la trajectoire des autres véhicules est recalculée. L'outil s'appuie sur des modèles de diffusion vidéo, notamment CogVideoX, et sur un système de masquage précis pour isoler l'objet cible sans contaminer le reste de l'image. Lumières, ombres et perspectives se mettent à jour de façon cohérente, sans intervention manuelle. Ce niveau de précision représente un saut qualitatif majeur pour les professionnels de la post-production. Jusqu'ici, effacer un élément en mouvement dans une séquence complexe pouvait mobiliser des heures de travail manuel, avec des résultats souvent imparfaits sur les zones à fort déplacement. VOID automatise ce processus en intégrant ce que Netflix appelle la "simulation contrefactuelle" : l'IA ne se demande pas seulement à quoi ressemble la scène sans l'objet, mais à quoi elle aurait ressemblé si cet objet n'avait jamais existé. Pour les studios, les créateurs indépendants ou les équipes de post-production, cela signifie des délais réduits et une liberté créative élargie, à condition de disposer d'une machine suffisamment puissante pour faire tourner l'outil. Le raisonnement causal au cœur de VOID ne relève pas de la magie algorithmique mais d'un entraînement rigoureux sur des données physiques synthétiques, générées notamment via Blender et inspirées de bases de données visuelles complexes. Netflix positionne cet outil dans la continuité de ses investissements en recherche appliquée, un domaine où le groupe rivalise désormais avec les grands laboratoires académiques et les éditeurs de logiciels professionnels comme Adobe ou DaVinci Resolve. En publiant VOID en open source, la plateforme fait le choix de l'écosystème plutôt que de la rétention technologique, une stratégie qui lui permet d'accélérer l'adoption, d'attirer des contributions externes et de s'imposer comme référence dans un segment en pleine expansion. Les suites possibles incluent une intégration dans des pipelines de production existants et, à terme, des applications grand public pour l'édition vidéo assistée par IA.

UELes studios de post-production français et européens peuvent adopter directement cet outil open source pour réduire les délais et coûts de montage vidéo complexe.

CréationOutil
1 source
ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?
2Le Big Data 

ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?

Depuis le 30 avril 2026, un prompt pour ChatGPT Images 2.0 circule à vitesse fulgurante sur les réseaux sociaux. Partagé par l'utilisateur @arrakis_ai sur X, il demande à l'IA de redessiner n'importe quelle photo de la manière la plus maladroite possible, comme si le résultat avait été tracé à la souris dans Microsoft Paint : traits brouillons, proportions bancales, rendu pixelisé à l'extrême. L'image doit rester vaguement reconnaissable tout en provoquant un effet comique immédiat. La chute du prompt joue aussi un rôle décisif : après toutes ces instructions précises, une phrase désinvolte coupe court à la logique et donne à l'IA une liberté totale, ce qui produit des visuels imprévisibles et souvent absurdes. En quelques heures, des milliers d'utilisateurs ont reproduit l'expérience et inondé leurs fils d'images volontairement ratées. Le paradoxe est frappant : ChatGPT Images 2.0, présenté comme un outil de génération d'images haute fidélité capable de produire des visuels quasi photoréalistes, cartonne précisément quand on lui demande de faire le contraire. Ce phénomène révèle une vraie fatigue face à la surproduction d'images lisses et calibrées qui envahissent les plateformes depuis l'essor des IA génératives. Les dessins maladroits accrochent là où les rendus parfaits glissent, parce qu'ils surprennent, font sourire et cassent les codes esthétiques dominants. Pour les créateurs de contenu et les marques, la leçon est contre-intuitive mais réelle : l'irrégularité et l'imperfection ont une valeur virale que la perfection technique ne garantit pas. Le rendu bancal devient un langage visuel à part entière, accessible à tous sans compétence artistique préalable. Cette tendance s'inscrit dans un contexte plus large de maturité du grand public face aux IA génératives. Après une première phase d'émerveillement devant le réalisme des images produites, les utilisateurs cherchent désormais à détourner ces outils plutôt qu'à les utiliser à leur plein potentiel technique. ChatGPT Images 2.0, lancé par OpenAI en 2025 avec des capacités de génération et d'édition nettement améliorées, se retrouve ainsi mobilisé pour des usages humoristiques et participatifs qui n'étaient pas au coeur de sa conception. Cette dynamique rappelle des précédents comme les filtres déformants de FaceApp ou les memes générés par DALL-E : les plateformes d'IA les plus puissantes trouvent souvent leur premier vrai moment culturel non pas dans leurs exploits techniques, mais dans leurs détournements les plus absurdes. La question reste ouverte de savoir si OpenAI capitalisera sur cette viralité ou si le phénomène restera une parenthèse éphémère dans le cycle des tendances internet.

CréationOutil
1 source
Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
3MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU
4MarkTechPost 

NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU

NVIDIA a publié SANA-WM, un modèle de monde open-source de 2,6 milliards de paramètres capable de générer une vidéo d'une minute en résolution 720p sur un seul GPU. Construit sur la base de code SANA-Video et disponible sur le dépôt GitHub NVlabs/Sana, ce modèle est un Diffusion Transformer (DiT) entraîné nativement pour la synthèse de séquences longues avec un contrôle de caméra 6-DoF à l'échelle métrique. Il propose trois modes d'inférence sur GPU unique : un générateur bidirectionnel pour la synthèse hors-ligne haute qualité, un générateur autorégressif par segments pour le déploiement séquentiel, et une variante distillée accélérée. Cette dernière génère un clip de 60 secondes en 720p en 34 secondes sur une RTX 5090 avec quantification NVFP4. Les modèles de monde représentent une brique technologique clé pour l'IA incarnée, la simulation et la robotique : ils permettent de prédire des séquences visuelles réalistes à partir d'une image initiale et d'un ensemble d'actions. Jusqu'ici, les systèmes open-source les plus compétitifs exigeaient soit plusieurs GPU pour l'inférence, soit une réduction de la résolution pour rester dans les budgets de calcul. SANA-WM s'attaque directement à ces deux contraintes, rendant accessible à un seul GPU une génération vidéo longue et haute définition. Pour les chercheurs en robotique et en simulation, cela réduit considérablement le coût d'expérimentation et ouvre la voie à des environnements synthétiques à grande échelle sans infrastructure dédiée. Sur le plan architectural, NVIDIA a résolu un problème fondamental : l'attention softmax standard a une complexité mémoire quadratique avec la longueur de séquence, ce qui devient prohibitif pour 961 frames latentes sur une vidéo de 60 secondes. SANA-WM remplace la majorité des blocs d'attention par des blocs Gated DeltaNet (GDN) frame-wise, une variante récurrente à taille d'état constante qui intègre un mécanisme de décroissance pour éviter l'accumulation de toutes les frames passées avec un poids égal, un problème qui dégradait les prédécesseurs sur les séquences longues. L'architecture finale entrelace 15 blocs GDN avec 5 blocs d'attention softmax sur 20 couches transformer au total. Le contrôle de caméra repose sur deux branches complémentaires : une branche grossière basée sur un encodage de position de caméra unifié (UCPE) pour capturer la trajectoire globale, et une branche fine utilisant des Plücker raymaps pour restaurer les mouvements de caméra intra-stride comprimés par le VAE vidéo. Ce modèle s'inscrit dans une dynamique d'accélération rapide des modèles de monde ouverts, où Google, Meta et des startups comme World Labs se positionnent également, faisant de la génération vidéo contrôlable un enjeu central de la prochaine génération d'IA.

UELes chercheurs européens en robotique et simulation peuvent désormais expérimenter avec des modèles de monde vidéo haute définition sur un seul GPU grand public, réduisant significativement les coûts d'infrastructure pour les laboratoires sans moyens de calcul dédiés.

💬 Un modèle de monde open-source qui tourne sur un seul GPU, c'est le genre de truc qui change vraiment les règles pour les labos sans cluster dédié. Ce qui me plaît, c'est le travail architectural sous-jacent : remplacer la majorité des blocs d'attention softmax par des GDN pour tenir sur des séquences longues sans exploser la mémoire, c'est pas trivial du tout. Reste à voir ce que ça donne sur une 4080 ordinaire, parce que la RTX 5090 c'est encore un autre monde.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour